
ПингПонг V2
Ссылка: https://ilyagusev.github.io/ping_pong_bench/ru_v2
Все последние недели готовил новую версию ПингПонга.
Основные отличия от V1:
1) 3 роли вместо 2: игрок (player), опрашивающий (interrogator), судья (judge). Терминология, аналогичная сами знаете чему. Раньше опрашивающий и судья были одним промптом, теперь их несколько. Основные преимущества:
a) Их теперь могут отыгрывать разные модели, с разной ценой и параметрами.
b) Одну и ту же переписку можно оценивать разными моделями.
2) Опрашивающий = gpt-4o-mini вместо claude-3-5-sonnet. Так дешевле, а оправшивающему всё равно не обязательно быть очень хорошим.
3) Судья = ансамбль gpt-4o и claude-3-5-sonnet вместо только claude-3-5-sonnet. Это помогает избежать ситуаций, когда модели слишком высоко оценивают похожих на себя.
4) База в виде ручной разметки и 0.67 корреляции Спирмена с ней (по примерам, не по моделям).
Ну и пачка мелких интерфейсных улучшений, теперь можно читать вообще все диалоги, в том числе отказы.
Кидайте модели для оценки в комменты, добавлю в лидерборд.
Ссылка: https://ilyagusev.github.io/ping_pong_bench/ru_v2
Все последние недели готовил новую версию ПингПонга.
Основные отличия от V1:
1) 3 роли вместо 2: игрок (player), опрашивающий (interrogator), судья (judge). Терминология, аналогичная сами знаете чему. Раньше опрашивающий и судья были одним промптом, теперь их несколько. Основные преимущества:
a) Их теперь могут отыгрывать разные модели, с разной ценой и параметрами.
b) Одну и ту же переписку можно оценивать разными моделями.
2) Опрашивающий = gpt-4o-mini вместо claude-3-5-sonnet. Так дешевле, а оправшивающему всё равно не обязательно быть очень хорошим.
3) Судья = ансамбль gpt-4o и claude-3-5-sonnet вместо только claude-3-5-sonnet. Это помогает избежать ситуаций, когда модели слишком высоко оценивают похожих на себя.
4) База в виде ручной разметки и 0.67 корреляции Спирмена с ней (по примерам, не по моделям).
Ну и пачка мелких интерфейсных улучшений, теперь можно читать вообще все диалоги, в том числе отказы.
Кидайте модели для оценки в комменты, добавлю в лидерборд.