Ян Лекун шарит:



Язык имеет низкую пропускную способность: менее 12 байт/сек. Человек может прочитать 270 слов/минут или 4,5 слова/секунду, что составляет 12 байт/с (предполагая 2 байта за токен и 0,75 слов за токен). Современный LLM обычно тренируется с двухбайтовыми токенами 1x10 ^13, что составляет 2x10 ^13 байт. Это займет около 100 000 лет для чтения (по 12 часов в день).



Зрение гораздо выше пропускная способность: около 20 МБ/с. Каждый из двух оптических нервов имеет 1 миллион нервных волокон, каждый несет около 10 байт в секунду. 4-летний ребенок не спит в общей сложности 16 000 часов, что означает 1х10 ^15 байт.



Другими словами:

- Пропускная способность данных визуального восприятия примерно в 16 млн раз превышает пропускную способность данных письменного (или разговорного) языка.

- Всего за 4 года ребенок увидел в 50 раз больше данных, чем самые крупные LLM, обучаемые по всему тексту, доступному в интернете.



Это говорит нам о трех вещах:

1. Да, текст излишен, а визуальные сигналы в оптических нервах еще лишнее (не смотря на 100-кратные сжатые версии выходов фоторецептора в сетчатке). Но избыточность данных — это *точно* то, что нам нужно для Самоконтрольного Обучения для улавливания структуры данных. Чем больше избыточности, тем лучше для SSL.

2. Большая часть знаний человека (и почти все знания животных) исходит из нашего сенсорного опыта физического мира. Язык - это вишенка на торте. Нам нужен торт для поддержки глазури.

3. Нет *абсолютно ни за что* мы никогда не достигнем ИИ на человеческом уровне без того, чтобы машины обучались на сенсорных входов с высокой пропускной способностью, таких как зрение.



Да, люди могут умнее без зрения, даже довольно умнее без видения и прослушивания. Но не без прикосновения. Прикосновение тоже довольно высокая пропускная способность.





@aihappens