Нейроскептик

Очередной рейтинг оценки лидеров больших языковых моделей (LLM) от LMSYS - huggingface:

Arena Elo Rating - рейтинг на основе более 100 тысяч анонимных голосов Chatbot Arena (эталонная платформа для больших языковых моделей);

MT-Bench(score) - оценка с помощью судейства LLM;

MMLU - тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.

Что изменилось:

- к Arena Elo Rating присоединилось 10 тысяч голосов.

- первые 6 моделей продолжили терять голоса.

- на 9 место в первую десятку LLM вошла OpenChat_3.5 от Apache.

- Vicuna-13B покинула первую десятку.

Пока в рейтинге не видно новую LLM GPT-4 Turbo от OpenAI.