Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models
Статья: https://arxiv.org/abs/2404.18796
Работа, которую я пропустил, и нашёл только благодаря разведке для ПингПонга. А между тем она к ПингПонгу имеет самое прямое отношение.
В ней очень простой вывод: усреднение оценок моделей разных семейств даёт лучшие результаты по сравнению с одиночными судьями. Ребята проверили это на QA и на side-by-side примерах Арены. Всё.
Статья: https://arxiv.org/abs/2404.18796
Работа, которую я пропустил, и нашёл только благодаря разведке для ПингПонга. А между тем она к ПингПонгу имеет самое прямое отношение.
В ней очень простой вывод: усреднение оценок моделей разных семейств даёт лучшие результаты по сравнению с одиночными судьями. Ребята проверили это на QA и на side-by-side примерах Арены. Всё.