AI Happens

История о том, как ваша новая аватарка в Facebook учит нейросеть, или почему нельзя защитить персональные данные в интернете

Microsoft удалил открытый датасет из 10 миллионов лиц. Снимки компания брала из открытых источников в интернете без согласия авторов. Датасет был доступен с 2016 года и неоднократно использовался всеми желающими для тренировки нейронных сетей.

Почему важно: Когда Microsoft говорил, что лица из датасета MS Celeb принадлежат только известным личностям, он, конечно, лукавил. На самом деле там много фотографий рядовых пользователей социальных сетей. Никто не спрашивал, хотят ли они участвовать в тренировке нейросетей или нет. А надо ли?

При создании датасета у компании есть два с половиной пути. Первый — собрать данные с ее сайта или приложения. Второй — ходить по открытым источникам и собирать датку из профилей Инстаграма. Еще один путь — платить копейку работникам Amazon Mechanical Turk или Яндекс.Толоки, чтобы те делали нужные для задачи снимки и отправляли компании. Не надо быть специалистом по машинному обучению, чтобы понять, какой из способов дешевле и легче.

Все технологии распознавания лиц собраны из наших снимков — вот мы гуляем в парке, сидим в баре с друзьями (много разных лиц в кадре — это хорошо), отдыхаем на море. Тысячи фотографий нашей жизни идут на обучение будущего ИИ. Да, вы можете воспользоваться правом на забвение — удалить персональные данные из поисковых запросов. Но выпилиться из датасетов, увы, не выйдет. На них закон не распространяется. Даже официально удаленный MS Celeb, понятное дело, остался в сети — у тех, кто скачал его за три года.

Возникает вопрос — а что делать? Вероятно, закон будет развиваться — сейчас он только частично оберегает персональные данные. Скоро маленькое разрешение на сбор куков на сайте расширится до огромной формы, в которой будут подробно рассказывать, чем вам грозит пребывание на сайте. Но все же стоит понимать, что интернет — самое свободное место на Земле, где вся собственность — общая, в том числе и наше “я”.