Что на самом деле произойдет с обучением нейросетей, когда интернет заполнят тексты, которые сами были сгенерированы другими нейросетями (или даже предыдущим поколением этих нейросетей)?



Чтобы обучить нейросеть, требуется огромный датасет. И проблема не только в том, чтобы найти качественные данные. Довольно быстро у нас стал буквально "заканчиваться интернет". Большая часть подходящих текстов уже включили в датасеты, а новые в нужном для дальнейшего роста моделей не появляются. И не появятся.



Сейчас мы знаем, что в апрельской версии CommonCrawl, на которой обычно обучают большие модели и по которой можно грубо оценить объем текстового интернета, после очистки корпуса от дублей, составлял 30 триллионов токенов и это почти весь открытый текстовый интернет. Эта проблема получила название "стена данных" (data wall).



Сразу были предложены варианты решения: повторно включать уже использованные данные, подключить другие типы данных (звук, изображения), брать закрытые переписки или конвертировать данные из других областей. Но уже в 2023 году команда ученых сделала стрёмный вывод.



Если обучать модели на сгенерированных ей же данных, статистические значения будут накапливаться и ухудшаться. Модель начинает повышать выдачу типичных и ограничивать редкие события. А генерация будет ухудшаться с каждым следующим поколением.



Но все не так страшно, как по мне. Все сводится к тому, чтобы научится отличать машинно-сгенерированный текст от человеческого. И если сегодня это кажется довольно затруднительным в долгосрочной перспективе (а некоторые считают и невозможным в будущем), сейчас каждый день ведется поиск новых подходов. Давно известно, что у OpenAI уже есть инструмент на основе водяных знаков, но пока его не стремятся сделать общедоступным.



https://www.nature.com/articles/s41586-024-07566-y