Старший Авгур

Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models

Статья: https://arxiv.org/abs/2404.18796

Работа, которую я пропустил, и нашёл только благодаря разведке для ПингПонга. А между тем она к ПингПонгу имеет самое прямое отношение.

В ней очень простой вывод: усреднение оценок моделей разных семейств даёт лучшие результаты по сравнению с одиночными судьями. Ребята проверили это на QA и на side-by-side примерах Арены. Всё.