Решила скопировать сюда свое старое описание статьи Life after BERT: What do Other Muppets Understand about Language? ( https://aclanthology.org/2022.acl-long.227/ ).



В этой статье анализируется 8 языковых моделей разного размера, с разной transformer-based архитектурой. Сразу после предобучения их заставляют отвечать на каверзные вопросы/задания, в которых тестируются разные аспекты понимания языка. Задания разбиты на несколько категорий. Например, есть категория "сравнение объектов", тут модель могут спросить, что больше по размеру - гвоздь или вилка. Есть категория "сравнение возрастов", тут модель могут спросить, какой человек старше - тот, которому 41 год или которому 42 года и т.д. Особенно интересной мне показалась категория "отрицание антонимов", в ней модель заставляют выбрать пропущенное слово в специально составленном предложении, состоящем из двух частей через запятую. Каждая часть содержит утверждения либо о подобных (синонимы), либо о противоположных вещах (антонимы). Выбор пропущенного слова ограничивается двумя вариантами: отрицающее слово - частица "не" ("not") или подтверждающее слово ("really"). Например, предложение может быть "It was _ sane, it was really insane", и модель по смыслу должна вставить в пропуск ("_") слово "not", т.к. insane ~ not sane. Или наоборот "It is _ good, it is nice", и она должна вставить "really", т.к. good ~ nice. Если бы какая-то модель могла показывать хороший результат на этой задаче, это означало бы, что она одновременно понимает, что такое антонимы и что такое частица "не".

Оказалось, что среди тех моделей, что были протестированы: а) все модели решают эти задачи в среднем не очень, но некоторые лучше других; б) качество решения предложенных диагностических задач не коррелирует с архитекутрой и размером модели; в) качество решения некоторых задач зависит от того, стоит ли точка в конце предложения или нет; г) правильность ответов на вопрос про возраст зависит от возрастной группы; д) ответ в задаче отрицания антонимов зависит даже от маленьких изменений формулировки предложения/вопроса.

Также оказалось, что дообучение на предложенных диагностических задачах помогает моделям решать большинство из этих задач лучше, но некоторые задачи все еще остаются сложными для них. Самой сложной (даже после дообучения) осталась задача, где модели заставляли отвечать на вопросы об энциклопедических фактах. Также оказалось, что всем моделям все еще непросто научиться правильно подставлять в предложения слова "всегда"/"никогда" (т.е. они все еще не до конца понимают разницу между этими понятиями) и отвечать на вопросы про общие свойства объектов.

Особенность статьи в том, что авторы не поленились проанализировать большое количество моделей (существовавших в открытом доступе на момент весны 2022 года) на большом количестве диагностических задач и сделать несколько больших таблиц с качеством предсказания моделей на задачах. Благодаря этому статью можно использовать как справочный материал, чтобы быстро посмотреть, какие аспекты языка "понимает" такая-то модель.



#объяснения_статей