Есть такой бенчмарк, SuperGLUE, он используется для оценки моделей в Natural Language Understanding (NLU). Интересно, что NLU, это не просто одна задача и одна метрика, а буквально все то, что связано с пониманием языка и из него вытекающими. Поэтому измеряют эту способность не на одной задаче, а на целом наборе задач и датасетов (в случае SuperGLUE их 10), которые должны показать понимает ли алгоритм прочитанное. Дополнение последовательности, вопросы по контексту, заполнение пропущенного, и вот это вот все, прям как на Reading тесте по английскому.



Так вот, Microsoft представил новую модель DeBERTa (как можно догадаться, на основе BERT), которая впервые обошла human baseline по итоговому (суммарному) баллу. Ура.

Или не ура, кожаный мешок.