Действительно большой бенчмарк



⁉️ Какая модель лучше всех справляется с той или иной задачей? Например, понимает естественный язык? Чтобы это выяснить, нужно сравнить их производительность между собой и сопоставить с человеком. Желательно максимально объективно. Для этого существуют особые инструменты — бенчмарки. Они разрабатываются на основе определённой методологии и включают один или несколько разных тестовых заданий.



Проблема: За последние годы в области обработки естественного языка (Natural Language Processing, NLP) произошла серия грандиозных прорывов. Языковые модели резко увеличили свои размеры и эффективность. Теперь им по плечу даже такие задачи, как генерация программного кода и музыки, генетика и медицинская диагностика. А вот бенчмарки за ними не поспевают. Они или быстро устаревают, или чрезмерно специализированы.



Решение: Международная коллаборация, объединившая 442 специалиста из 132 организаций со всего мира, включая Россию, создали новый мультимодальный бенчмарк BIG-bench. Он предназначен для оценки моделей, имеющих от от нескольких миллионов до десятков миллиардов параметров. С его помощью можно будет оценить перформанс даже алгоритмов следующего поколения, которые только предстоит создать.



Особенности: BIG-bench отличается экстремальной сложностью, что отражено даже в его названии: BIG — Beyond the Imitation Game или, «За пределами имитационной игры». Явная отсылка к классическому тесту Тьюринга и долгожданному выходу за его границы.



Всего в бенчмарке 204 задачи, которые охватывают широкий спектр языков и тематик: от стандартных лингвистических способностей (чтение, понимание, генерация текстов) до написания кода и прохождения видеоигр. Кроме того, API системы позволяет создавать новые специализированные задания — в виде JSON-файлов или кода на Python.



👩🏻‍🎓 Российская участница коллаборации Татьяна Шаврина так подытожила работу над BIG-bench: «NLP — очень "жадная" область, которая постепенно подминает под себя всё большее число разных задач. Поэтому в бенчмарк включены самые разнообразные задания, например, шахматные ходы, записанные текстом. Впрочем, одновременно NLP является и донором — многие из архитектур, которые изначально были придуманы для неё, теперь плотно вошли в практику решения совершенно других задач».



Для продвинутых:



1️⃣ Препринт на arXiv. Аккуратнее — там 100 страниц!



2️⃣ Код, задачи, инструкции и прочие материалы проекта доступны в репозитории GitHub.



3️⃣ Для быстрой оценки моделей есть сокращённый и облегченный вариант бенчмарка BIG-bench Lite.



#Обработка_естественного_языка, #Бенчмарки