В ключевых датасетах стало меньше информации



Исследователи MIT проанализировали несколько тысяч веб-доменов, информация из которых содержится в основных дата-сетах для обучения ИИ-моделей.

Выяснилось, что за прошедший год значительное количество владельцев этих доменов закрыли доступ к информации для разработчиков нейросетей.



Например, в случае с так называемыми «высококачественными» источниками (например, СМИ или ресурсы с научными публикациями), число тех, кто запретил собирать информацию для обучения ИИ, достигло 30%.



Понятно, что та информация, которая уже есть в датасетах, не исчезнет. Но это означает, что актуальную информацию из этих источников получить будет нельзя. Если, конечно, разработчики нейросетей не готовы нарушать требования владельцев информации.



Авторов, которые охраняют право на свой контент любыми доступными способами, можно понять. Обратной стороной этого желания является тот факт, что датасетами пользуются не только компании с многомиллиардными бюджетами, но и молодые стартапы, а также научные сотрудники. Им, вероятно, станет гораздо сложнее получить доступ к качественной информации, чтобы разработать свою ИИ-модель.