Старший Авгур

Я собрал тест-сет из 230 примеров запросов из бота, попробовал разные варианты LLM-as-a-Judge, всё дерьмово. То ли запросы слишком специфичны, то ли из меня плохой промпт-инженер, но результаты во всех случаях так себе. В некоторых случаях saiga_llama3_8b_v7 > claude_3_5_sonnet 😄

Если бы цель была показать крутость Сайги, наверное это было бы хорошо, но цель-то не в этом.

В целом очень низкая разделимость получается, у всех моделей (saiga_llama3_8b_v7, saiga_gemma2_9b_v2, gpt4o, claude_3_5_sonnet, mistral_nemo) винрейт по сравнению с gpt4o > 40%.

Когда уже релиз ru-arena-general 😭