
Очередной рейтинг оценки лидеров больших языковых моделей (LLM) от LMSYS - huggingface:
Arena Elo Rating - рейтинг на основе более 100 тысяч анонимных голосов Chatbot Arena (эталонная платформа для больших языковых моделей);
MT-Bench(score) - оценка с помощью судейства LLM;
MMLU - тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.
Что изменилось:
- к Arena Elo Rating присоединилось 10 тысяч голосов.
- первые 6 моделей продолжили терять голоса.
- на 9 место в первую десятку LLM вошла OpenChat_3.5 от Apache.
- Vicuna-13B покинула первую десятку.
Пока в рейтинге не видно новую LLM GPT-4 Turbo от OpenAI.
Arena Elo Rating - рейтинг на основе более 100 тысяч анонимных голосов Chatbot Arena (эталонная платформа для больших языковых моделей);
MT-Bench(score) - оценка с помощью судейства LLM;
MMLU - тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.
Что изменилось:
- к Arena Elo Rating присоединилось 10 тысяч голосов.
- первые 6 моделей продолжили терять голоса.
- на 9 место в первую десятку LLM вошла OpenChat_3.5 от Apache.
- Vicuna-13B покинула первую десятку.
Пока в рейтинге не видно новую LLM GPT-4 Turbo от OpenAI.