Старший Авгур

Computing machinery and intelligenceСтатья: ссылкаВнезапный обзор относительно новой статьи. Централ...

Читать далее

https://ilyagusev.github.io/ping_pong_bench/ru_v2Новая таблица после штрафа на длину. Ещё теперь мож...

Читать далее

ПингПонг V2 для русского после добавления моделей из комментариев и фиксов.Обратите внимание на внез...

Читать далее

Кстати, вот ещё хорошие новости для всех, кто интересуется темой mechanistic interpretability. Появи...

Читать далее

ПингПонг V2Ссылка: https://ilyagusev.github.io/ping_pong_bench/ru_v2Все последние недели готовил нов...

Читать далее

Кстати, лидерборд моделей по моим ручным оценкам. Выборка из 265 диалогов.

Читать далее

Ладно, забейте. Это всё очень интересно, но простое усреднение Sonnet'а и gpt-4o даёт 0.67 😳Так что...

Читать далее

Корреляция с человеческими (моими) оценками в разных вариантах агрегации. Нижняя строчка — только Со...

Читать далее

Как разные языковые оценивают друг друга в расширенном ПингПонге. Оценки отнормированы по минимальны...

Читать далее

Есть два русских бенча:- RuGeneralArena. Концепция из ArenaHard: 500 вопросов, side-by-side автомати...

Читать далее