Кое-в-каких результатах есть сомнения, потому что в CommonCrawl могли просочиться данные этих задач, и такие протечки выявлены (всё отфильтровать не смогли из-за бага, а переучивать было уже поздно/дорого). Но авторы показывают, что эффект этих протечек скорее всего слаб (про это отдельная большая секция в статье).



Задачки разные, языковое моделирование [”Our largest model sets a new SOTA on PTB by a substantial margin of 15 points, achieving a perplexity of 20.50”], LAMBADA [”in a zero-shot setting GPT-3 achieves 76% on LAMBADA, a gain of 8% over the previous state of the art”], Cloze, дополнение текста, различные QA [”Overall, on one of the three datasets GPT-3’s one-shot matches the open-domain fine-tuning SOTA. On the other two datasets it approaches the performance of the closed-book SOTA despite not using fine-tuning”], перевод (корпуса специально не чистили от английского, так что другие языки просочились и перевод местами даже неплохо работает, сравнимо с другими unsupervised моделями, но конечно несравнимо с промышленными supervised решениями), Winograd-подобные задачки, common sense reasoning [”PhysicalQA (PIQA), asks common sense questions about how the physical world works and is intended as a probe of grounded understanding of the world. GPT-3 achieves 81.0% accuracy zero-shot, 80.5% accuracy one-shot, and 82.8% accuracy few-shot (the last measured on PIQA’s test server). This compares favorably to the 79.4% accuracy prior state-of-the-art of a fine-tuned RoBERTa.”] и прочее, и прочее.



Из интересного, дали синтетические задачки на арифметику (кое-где неплохо справилась), всякие испорченные слова (циклический сдвиг, анаграммы, реверс, случайные вставки) — тут местами не очень, возможно потому что BPE, а не символьная модель, ей приходится учить сложные паттерны для таких задач.



На SAT Analogies “GPT-3 achieves 65.2% in the few-shot setting, 59.1% in the one-shot setting, and 53.7% in the zero-shot setting, whereas the average score among college applicants was 57% (random guessing yields 20%)”.



Ну и, конечно, новости погенерили. И довели их качество до уровня неразличимости средним американцем. Ждём очередной волны PR-хайпа вокруг этой темы.



Также прикольные результаты про применение моделью новых слов (которых она не знала и первый раз увидела у себя на входе) и про исправление правописания.



Как всегда отдельный раздел про Potential Misuse (по GPT-2 вроде не заметили особо ничего, кроме обсуждений на форумах). Также отдельная тема про посмотреть, какие bias внутри модели оказались. Проверяют на примере пола, религии и расы.



В целом, конечно, прикольные результаты. Пока главный вывод — что всё прекрасно скейлится. И это ещё файнтюнить не пробовали даже.



Что, интересно, такими темпами будет через пару лет… Продолжаем наблюдение.