Старший Авгур

Есть два русских бенча:

- RuGeneralArena. Концепция из ArenaHard: 500 вопросов, side-by-side автоматическая оценка через GPT-4, 5 возможных ответов (<<, <, =, >, >>), за крайние ответы вес оценки в 3 раза больше.

- Шлёпа. Вопросы на "культуру" с вариантами ответа, как в MMLU. Вариантов 10 или 12. Оценка через логиты первого токена.

Они мне нравятся, потому что ~~Сайга в них высоко~~ они отражают то моё интуитивное понимание, какие модели лучше, а какие хуже.