Картина пятничная - философская.



А задумывались ли вы, когда придёт предел данных для обучения LLM?



На минуточку, по состоянию на май 2023 модели потребляют для предобучения от 0.5 до 1.4 трлн токенов.



Насколько это много?)



Средне статистическая книга содержит около 50к слов или 67к токенов, 1 триллион токенов это 15 млн книг!



При этом, скорость генерации сообществом интернета данных может оказаться меньше скорости потребления этих данных /роста сетов потребляемых для обучения (Villalobos et al, 2022)



Также, стоит отметить, что растёт объем данных генерируемый уже GPTlike моделями и в какой-то момент ( и уже видим сейчас) новые и новые генерации LLM не только будут содержать весь допустимый контент, но и тексты полученные из иных моделей.



В такой парадигме, где мы кормим больше и больше знаний о мире в LLM, можем прийти к моменту, когда владельцы закрытых данных смогут выйти на арену и иметь своё преимущество.



Поэтому, видимо, кто владеет информацией - владеет миром. Будет ещё долго не пустым звуком.



А что думаете об этом Вы?