Дата с Васей

Наверное многие из вас слышали про сайт-арену для разных LLM 🤖

https://chat.lmsys.org/

Если нет - то рассказываю. Вы вводите промпт и получаете ответ сразу от двух моделей (как коммерческих вроде GPT/Claude, так и опенсорсных). Далее в слепом тестировании выбираете какой ответ вам больше понравился. На основе этого формируется общий рейтинг моделей по принципу ELO. На первом месте кстати Claude-Opus. А на 6 уже находится опенсорсное решение (Command R+).

Рейтинг Эло представляет собой числовой показатель, отражающий относительную силу игроков(в нашем случае LLM) в играх на основе их предыдущих результатов. Он повышается, если игрок побеждает более высоко рейтингового соперника. И понижается, если он проигрывает сопернику с более низким рейтингом. Данная система рейтинга широко используется например в шахматах.