
Есть два русских бенча:
- RuGeneralArena. Концепция из ArenaHard: 500 вопросов, side-by-side автоматическая оценка через GPT-4, 5 возможных ответов (<<, <, =, >, >>), за крайние ответы вес оценки в 3 раза больше.
- Шлёпа. Вопросы на "культуру" с вариантами ответа, как в MMLU. Вариантов 10 или 12. Оценка через логиты первого токена.
Они мне нравятся, потому чтоСайга в них высоко они отражают то моё интуитивное понимание, какие модели лучше, а какие хуже.
- RuGeneralArena. Концепция из ArenaHard: 500 вопросов, side-by-side автоматическая оценка через GPT-4, 5 возможных ответов (<<, <, =, >, >>), за крайние ответы вес оценки в 3 раза больше.
- Шлёпа. Вопросы на "культуру" с вариантами ответа, как в MMLU. Вариантов 10 или 12. Оценка через логиты первого токена.
Они мне нравятся, потому что