Залил Qwen 2.5 70B и Gemma-2 27B в ArenaHard. Я не сомневался, что они хороши, но каким-то загадочным образом Квен обошёл Соннет. У меня 2 версии:

1) GPT-4 не любит Клоды, а он там судья.

2) Бейзлайн (gpt-3.5) уже слишком плох и мешает различать хорошие модели.



Весь замер с моей стороны обошёлся в 20 центов. Я платил только за инференс самих моделей, суд оплачивает бенчмарк.