что-то на DL-ском

Несколько дней назад был представлен новый усложненный бенчмарковый датасет ARB

Мотивация следующая: модели показывают все лучшие результаты, на старых бенчмарках. Уже порой невозможно понять, действительно ли стала модель хуже/лучше. Ведь их способности превосходят задачи в науках, которые им предоставляют на evaluation

Показатели замеров метрик на новом датасете многообещающие, в контексте того, что есть куда расти. Сами примеры задач из датасета тоже прикреплю

Нашла сайт с API и репой на GitHub

😊