Пост о том, почему ChatGPT НЕ является научным достижением.



Безусловно, появление ChatGPT (а скорее даже сервиса, с помощью которого можно получать доступ к этой модели), было довольно заметным и интересным событием конца 2022 года. Во-первых, модель породила множество мемесов и кеков, а значит, уже была создана не зря. Во-вторых, модель вызвала резонанс у широкой аудитории, и теперь больше людей в целом интересуются вопросами, связанными с нейросетями, особенно с тем, как их можно применять. У разработчиков и бизнесменов появилось много новых мыслей о том, как использовать эту и подобные модели в своих продуктах, и теперь можно ждать появление новых AI-стартапов и интересных AI-фичей в уже существующем ПО.

Тем не менее, меня удивило, когда я увидела, что ChatGPT причисляют именно к главным научным достижениям 2022 года. Удивило потому, что нет причин считать, что эта модель обладает именно научной новизной.

Во-первых, ее архитектура, судя по тем крупицам информации, что мы имеем, скорее всего, является лишь слегка измененной версией архитектуры уже известной модели GPT-3. Если бы там были какие-то оригинальные, необычные архитектурные решения, то об этом была бы написана статья задолго до того, как появился сервис с доступом к модели.

Во-вторых, ее способ обучения, опять же, судя по имеющимся крупицам информации, также не является чем-то революционным, просто обучение было выполнено хорошо благодаря большим ресурсам компании.

В-третьих, чтобы модель была научным прорывом, нужно четко доказать, что она в каких-то аспектах превосходит существующие модели. А чтобы утверждать, что это так, необходимо, в первую очередь, оценить ее на общепринятых наборах данных, оценивающих понимание естественного языка (NLU), наподобие GLUE и SuperGLUE. Конечно, эти наборы данных и оценку на них также можно и нужно подвергать критике, но из-за того, что они являются стандартными, оценка на них является отправной точкой для того, чтобы начать обоснованное сравнение новой модели с аналогами. Если GLUE и SuperGLUE совсем не по нраву авторам, можно сделать сравнение на других бенчмарках, но я не находила таблицы сравнения ни на одном осмысленном бенчмарке вообще (Если это я долблюсь в глаза, и на самом деле такие таблицы существуют, то, пожалуйста, скиньте ссылку на них в комментариях). Это как бы намекает на то, что на бенчмарках она вряд ли сильно превосходит аналоги, иначе результаты бы, скорее всего, выложили.



Также нужно добавить, что во многом популярность ChatGPT обусловлена не предполагаемой научной новизной модели, а следующими факторами:

- Наличием сервиса, который способен крутить в продакшене большое количество экземпляров нейросети и обрабатывать запросы миллионов пользователей к ней. Благодаря этому большое количество людей могут лично общаться с моделью и популяризировать ее, делая из нее кеки. Увидев кеки, еще больше людей приходит на сервис, создает новую волну кеков и т.д. - происходит взрыв популярности, но сервис держится, справляется. Построение, развертывание и поддержание БЕСПЛАТНОГО сервиса, который выдерживает подобную нагрузку, требует огромных ресурсов. Мало кто может себе позволить потратить такие ресурсы на хайп.

- Недостатком знаний о текущем положении дел в области NLP (Natural Language Processing) у широкой публики. Именно благодаря отсутствию контекста о состоянии области, большинству людей ChatGPT кажется внезапным божьим чудом. Во-первых, еще пару лет назад модели начали обгонять человека на бенчмарках GLUE и SuperGLUE, которые оценивают важные аспекты понимания естественного языка. Во-вторых, задачи генерации кода и решения логических задач, которые так сильно удивляют пользователей, давно изучаются в контексте NLP, и успехи в этой области также были и до ChatGPT. В-третьих, у меня самой есть небольшой опыт использования GPT-3, и по ощущениям, ответы ChatGPT на вопросы общего характера (и типы ошибок, которые он при этом делает), во многом напоминают то, что делал GPT-3 (модель 2020го года).



P.S. Подчеркну, что не имею цели обидеть модель, просто уточняю положение дел.



#духота