Websoft

Может ли программное обеспечение автоматически собирать персональные данные из социальных сетей, работных сайтов и других подобных источников?

От ответа на этот вопрос зависит жизнеспособность бизнес-моделей кучи HR-стартапов. Тех, которые строят профили программистов или позволяют проверять профиль сотрудника (см. наш пост про Сбербанк) и много чего ещё...

Мы провели небольшое исследование и собрали в одну кучу историю вопроса. Не будучи юристами мы не претендуем на абсолютную корректность. Считайте этот пост мнением диванных аналитиков.

Как можно извлекать данные с сайтов (scraping):

1. Из открытых источников, которым пользователи явно разрешили свободно распространять свои данные (например, соц. сети)

2. Из закрытых источников, к которым пользователи купили доступ (например, сайты типа HH)

Правомерность действий может зависеть от источника персональных данных и юрисдикции.

Европейский Союз

Здесь действует GDPR - всеобъемлющий закон о защите персональных данных. Из него явно следует, что собирать персональные данные без явного согласия человека нельзя. Не зависимо от того публичный это источник или закрытый. Об этом пишут даже сами скрейперы:

https://blog.scrapinghub.com/web-scraping-gdpr-compliance-guide

США

Универсального и всеобъемлющего закона нет, есть куски федерального законодательства и законы на уровне штатов.

Закон CFAA запрещает собирать данные из закрытых баз данных без согласия их владельца.

А вот с публичными данными не все так просто. Стартап HiQ судился с LinkedIn (Microsoft) за право собирать данные из публичных профилей и выиграл дело:

https://www.eff.org/deeplinks/2019/09/victory-ruling-hiq-v-linkedin-protects-scraping-public-data

Победа в суде открывает большие возможности для аналогичных стартапов.

Россия

Есть закон о защите персональных данных, но есть множество вариантов его трактования.

Сбор закрытых данных: есть прецедент выяснения отношений между HeadHunter и Роботом Верой. Суть спора - может ли клиент, купивший права доступа к базе HH, с помощью софта другого разработчика, за рамками официального API извлекать данные?

Результат: Иск HH к создателям Робота Вера не удовлетворен:

https://rb.ru/news/headhunter-protiv-robot-vera/

Сбор данных из публичных источников: тут есть судебное разбирательство между ВКонтакте и компанией Double Data, которое собирало данные для бюро кредитных историй.

Результат: в первой инстанции иск ВКонтакте к Double Data был отклонён, но суд второй инстанции вернул дело на повторное рассмотрение:

http://tdaily.ru/news/2019/07/12/vkontakte-protiv-double-data-slushaniya-prodolzhayutsya

Выводы: единого и простого ответа на исходный вопрос нет. Это серая область, которая не отрегулирована или процесс регулирования только появляется. В ближайшие несколько лет законодательство и судебная практика будут меняться и развиваться.

Так что, перед тем как всерьёз инвестировать в подобные технологии, серьезно изучите вопрос и подумайте.

PS

А ещё, в этом вопросе много политики. Потому что собирать персональные данные для того, чтобы выбрать президентом Дональда Трампа это плохо. И за это все осуждают Facebook и Cambridge Analytics. А забирать профили LinkedIn для анализа поведения сотрудников, как это делает HiQ это нормально. Где граница?

Есть эксперты, которые задаются этим вопросом:

https://thefederalist.com/2018/04/10/linkedin-lawsuit-proves-left-doesnt-really-care-securing-data/