Нейроскептик

Новый рейтинг оценки лидеров больших языковых моделей (LLM) от LMSYS - huggingface:

Arena Elo Rating - рейтинг на основе более 90 тысяч анонимных голосов Chatbot Arena (эталонная платформа для больших языковых моделей);

MT-Bench(score) - оценка с помощью судейства LLM;

MMLU - тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.

За прошедший месяц к Arena Elo Rating присоединилось 20 тысяч голосов. GPT-4 потеряла 12 пунктов, но сохранила лидерство. В десятку моделей LLM сразу на 6 место ворвалась WizardLM-70B-V1.0. Прmpактически все модели потеряли в голосах, а MPT-30b-chat выпала из первых 10 LLM рейтинга.

Здесь можно посмотреть прошлый рейтинг.