2. Синтетические данные



Подход с анонимизацией можно развить: давайте на имеющихся у нас данных научим какую-то модель машинного обучения (например, нейросетку) генерировать новые данные, похожие на настоящие. Верхнеуровнево это работает так: каждый пример из реальных данных рассматривается как набор чисел из некоторого распределения, на известных данных вы восстанавливаете распределение, а потом из него же генерируете новые примеры. Не во всех подходах вы восстанавливаете распределение в явном виде, но главное, что вы можете генерировать синтетические примеры. Если реальных людей, к которым относятся эти данные, просто не существует, то невозможно и выдать чьи-то секреты. Но, к сожалению, есть в машинном обучении явление переобучения. Если ваша модель оверфитнется на данные, то в синтетических примерах могут появляться в точности примеры из исходной выборки. Неприятный риск, неправда ли? Впрочем, это относительно контролируемый риск, т.к. всегда можно проверить, возникла такая проблема или нет, да и несложно явно вычистить какие-то примеры из данных, слишком уж близкие к настоящим. Но остается та же проблема, что и в прошлом подходе - такие данные полезны только для пополнения обучающей выборки. Распространена практика выкладывать синтетические данные в качестве обучающей и тестовой выборки, когда вы устраиваете публичное соревнование по машинному обучению - тогда точно никто не деанонимизирует данные (а подобных скандалов на реальных данных из соревнований было достаточно много).



3. Скоры вместо данных



Элегантный способ решения проблемы - не отдавать данные. Например, вместо данных можно использовать прогнозы каких-то ML моделек. Есть у вас модельки для кредитного скоринга и рекламных интересов? Чем их прогнозы не подойдут в качестве признаков клиента. Они тоже его как-то описывают и на них тоже можно обучаться. Да даже если вы как-то прогнозируете возраст по поведению человека в сервисе - это уже не достоверно известный возраст, а модельный. Отгружая прогнозы по клиентам вы не выдаете никакой доподлинно известной информации. Главное, опять же, контролировать переобучение.



Завершающий пост - в эту пятницу