Еще немного мыслей про 2-летие GPT-3, на этот раз рефлексия от Gwern



Будучи, конечно, в некоторой оппозиции к большинству, он считает:



- что в результате успешного масштабирования генеративок вымерли целые подобласти NLP: например, style transfer (считает, что после GPT-3/LaMDA вопрос закрыт).



- поиск новых архитектур демотивирован во многом тем, что в результате это так себе способ повысить производительность вычислений: вся эта работа часто оказывается пустой тратой сил и вычислительных ресурсов по сравнению с масштабированием стандартной модели. Упс.



- при этом позитив в том, что больше усилий высвобождается на исследование важных новых тем, таких как мультимодальное обучение в рамках одной архитектуры. Раньше им не хватало и данных, и мощностей.



- область DL быстро прогрессирует, почти полностью благодаря железу и его более эфективному использованию. Статьи с Arxiv за 2015 год кажутся письменами из каменного века для глубокого обучения; с другой стороны, в других областях, например, генетике, такой тенденции еще нет: любую статью 2015 года можно принять за вчерашнюю.



- вообще, критика GPT-3 и многие скептические взгляды вызваны недостаточной компетенцией, насмотренностью на результаты, чтобы на интуитивном уровне оценить захватывающую дух разницу между небольшим char-RNN или CNN в 2015 году и той же PaLM или Фламинго в начале 2022 года.



- восприятие ИИ в целом во многом завязано на растущую разницу между SOTA и "средненьким" ИИ в продуктах: эта разницастала максимальной за долгое время. В 2000 году не было большой разницы между теми моделями, который каждый мог запустить на своем компьютере, и SOTA: все они были отстойными. Но сегодня разница между новой PaLM и чат-ботом в Alexa просто огромна. Скоро выйдет H100, но у многих никогда не было и A100 или даже V100 пятилетней давности. Таким образом, мы находимся в странной ситуации, когда люди все еще говорят о плохих примерах Google Translate из эпохи n-грамм или о плохих бесплатных кэпшенах YouTube из самой дешевой модели RNN, как о чем-то репрезентативном для того, что находится в лабораториях мира.



Во всяком случае, так было в последние 2 года. Что мы можем ожидать от следующих 2?