Старший Авгур

ПингПонг V2

Ссылка: https://ilyagusev.github.io/ping_pong_bench/ru_v2

Все последние недели готовил новую версию ПингПонга.

Основные отличия от V1:

1) 3 роли вместо 2: игрок (player), опрашивающий (interrogator), судья (judge). Терминология, аналогичная сами знаете чему. Раньше опрашивающий и судья были одним промптом, теперь их несколько. Основные преимущества:

a) Их теперь могут отыгрывать разные модели, с разной ценой и параметрами.

b) Одну и ту же переписку можно оценивать разными моделями.

2) Опрашивающий = gpt-4o-mini вместо claude-3-5-sonnet. Так дешевле, а оправшивающему всё равно не обязательно быть очень хорошим.

3) Судья = ансамбль gpt-4o и claude-3-5-sonnet вместо только claude-3-5-sonnet. Это помогает избежать ситуаций, когда модели слишком высоко оценивают похожих на себя.

4) База в виде ручной разметки и 0.67 корреляции Спирмена с ней (по примерам, не по моделям).

Ну и пачка мелких интерфейсных улучшений, теперь можно читать вообще все диалоги, в том числе отказы.

Кидайте модели для оценки в комменты, добавлю в лидерборд.