Я собрал тест-сет из 230 примеров запросов из бота, попробовал разные варианты LLM-as-a-Judge, всё дерьмово. То ли запросы слишком специфичны, то ли из меня плохой промпт-инженер, но результаты во всех случаях так себе. В некоторых случаях saiga_llama3_8b_v7 > claude_3_5_sonnet 😄
Если бы цель была показать крутость Сайги, наверное это было бы хорошо, но цель-то не в этом.
В целом очень низкая разделимость получается, у всех моделей (saiga_llama3_8b_v7, saiga_gemma2_9b_v2, gpt4o, claude_3_5_sonnet, mistral_nemo) винрейт по сравнению с gpt4o > 40%.
Когда уже релиз ru-arena-general😭
Если бы цель была показать крутость Сайги, наверное это было бы хорошо, но цель-то не в этом.
В целом очень низкая разделимость получается, у всех моделей (saiga_llama3_8b_v7, saiga_gemma2_9b_v2, gpt4o, claude_3_5_sonnet, mistral_nemo) винрейт по сравнению с gpt4o > 40%.
Когда уже релиз ru-arena-general