
Наверное многие из вас слышали про сайт-арену для разных LLM 🤖
https://chat.lmsys.org/
Если нет - то рассказываю. Вы вводите промпт и получаете ответ сразу от двух моделей (как коммерческих вроде GPT/Claude, так и опенсорсных). Далее в слепом тестировании выбираете какой ответ вам больше понравился. На основе этого формируется общий рейтинг моделей по принципу ELO. На первом месте кстати Claude-Opus. А на 6 уже находится опенсорсное решение (Command R+).
Рейтинг Эло представляет собой числовой показатель, отражающий относительную силу игроков(в нашем случае LLM) в играх на основе их предыдущих результатов. Он повышается, если игрок побеждает более высоко рейтингового соперника. И понижается, если он проигрывает сопернику с более низким рейтингом. Данная система рейтинга широко используется например в шахматах.
https://chat.lmsys.org/
Если нет - то рассказываю. Вы вводите промпт и получаете ответ сразу от двух моделей (как коммерческих вроде GPT/Claude, так и опенсорсных). Далее в слепом тестировании выбираете какой ответ вам больше понравился. На основе этого формируется общий рейтинг моделей по принципу ELO. На первом месте кстати Claude-Opus. А на 6 уже находится опенсорсное решение (Command R+).
Рейтинг Эло представляет собой числовой показатель, отражающий относительную силу игроков(в нашем случае LLM) в играх на основе их предыдущих результатов. Он повышается, если игрок побеждает более высоко рейтингового соперника. И понижается, если он проигрывает сопернику с более низким рейтингом. Данная система рейтинга широко используется например в шахматах.