Группа Т1 раскрыла преимущества ML-алгоритмов при поиске персональных данных
Руководитель продукта Сфера.Обезличивание данных Вячеслав Борисов рассказал об актуальных инструментах защиты персональных данных, которые используются в процессе разработки и тестирования ПО. Эксперт Группы Т1 выступил спикером на форуме Data Day-2023, на сессии «Защита данных. Как предотвращать утечки и потери в условиях, когда это смерти подобно». В ходе конференции Вячеслав Борисов обозначил основные риски обращения с чувствительной информацией и представил реальные кейсы применения инструментов защиты, основанных на обезличивании данных с помощью технологий машинного обучения.
По словам спикера, выбор эффективного инструмента защиты персональных данных становится все более актуальным: Минцифры готовится существенно ужесточить наказание для бизнеса за допущенные утечки информации.
«В больших компаниях команда разработки – это сотни и тысячи человек, а вместе с подрядчиками и субподрядчиками – десятки тысяч человек. Им нужны реальные данные для разработки и тестирования сервисов. Обезопасить информацию в этом случае помогает ее шифрование. Однако, прежде чем начнется маскирование, нужно найти все персональные данные, которые находятся в сотнях баз данных, часть из которых слабо документированы и сильно устарели», – подчеркивает Вячеслав Борисов.
Аудит информационного пространства – процесс долгий и сложный и внедрение автоматических правил анализа не всегда дает исчерпывающий результат.
«Смысловые атрибуты, например, дата рождения или ФИО, часто сохраняются в разных форматах, а сами сущности именуются в системах по-разному. Кроме того, разработчики иногда добавляют поля для комментариев, где могут упоминаться персональные идентификаторы. Все это создает риски того, что часть данных может быть утрачена», – считает эксперт.
Для поиска чувствительной информации в базах данных создатели инструмента Сфера.Обезличивание данных предлагают использовать технологии машинного обучения
«Вместо постоянного добавления все новых правил поиска мы обучили на терабайтах разнообразных данных модель, которая позволила увеличить полноту обнаружения персональной информации до 97%, а точность – до 95%. Сегодня решение дает возможность классифицировать 35 типов персональных данных», – отмечает владелец продукта Сфера.Обезличивание данных.