
Несколько дней назад был представлен новый усложненный бенчмарковый датасет ARB
Мотивация следующая: модели показывают все лучшие результаты, на старых бенчмарках. Уже порой невозможно понять, действительно ли стала модель хуже/лучше. Ведь их способности превосходят задачи в науках, которые им предоставляют на evaluation
Показатели замеров метрик на новом датасете многообещающие, в контексте того, что есть куда расти. Сами примеры задач из датасета тоже прикреплю
Нашла сайт с API и репой на GitHub😊
Мотивация следующая: модели показывают все лучшие результаты, на старых бенчмарках. Уже порой невозможно понять, действительно ли стала модель хуже/лучше. Ведь их способности превосходят задачи в науках, которые им предоставляют на evaluation
Показатели замеров метрик на новом датасете многообещающие, в контексте того, что есть куда расти. Сами примеры задач из датасета тоже прикреплю
Нашла сайт с API и репой на GitHub