Старший Авгур
Computing machinery and intelligenceСтатья: ссылкаВнезапный обзор относительно новой статьи. Централ...
Читать далее
https://ilyagusev.github.io/ping_pong_bench/ru_v2Новая таблица после штрафа на длину. Ещё теперь мож...
Читать далее
ПингПонг V2 для русского после добавления моделей из комментариев и фиксов.Обратите внимание на внез...
Читать далееКстати, вот ещё хорошие новости для всех, кто интересуется темой mechanistic interpretability. Появи...
Читать далее
ПингПонг V2Ссылка: https://ilyagusev.github.io/ping_pong_bench/ru_v2Все последние недели готовил нов...
Читать далее
Кстати, лидерборд моделей по моим ручным оценкам. Выборка из 265 диалогов.
Читать далее
Ладно, забейте. Это всё очень интересно, но простое усреднение Sonnet'а и gpt-4o даёт 0.67 😳Так что...
Читать далее
Корреляция с человеческими (моими) оценками в разных вариантах агрегации. Нижняя строчка — только Со...
Читать далее
Как разные языковые оценивают друг друга в расширенном ПингПонге. Оценки отнормированы по минимальны...
Читать далее
Есть два русских бенча:- RuGeneralArena. Концепция из ArenaHard: 500 вопросов, side-by-side автомати...
Читать далее