Старший Авгур

Рейтинг LLM в роулплее на русском

Вы не просили, я - сделал. Рейтинг оценивает два фактора: качество русского языка + логика в роулплее на русском.

Победители среди малых моделей:

Лучшая грамотность: vikhr-7b-instruct-0.2 (грамотная, но глупенькая)

Лучшая логика: Starling-LM-7B-beta (возможно, просто повезло)

Лучшая сбалансированность: vikhr-7b-instruct-0.4 (язык + логика)

Подробнее на гитхабе, там же полный xls файл.

https://github.com/Mozer/russian-llm-top