Нейроскептик

В первой десятки рейтинга оценки лидеров больших языковых моделей (LLM) от LMSYS - huggingface произошли существенные изменения:

Сразу на первое место встала новая LLM от OpenAI - GPT-4 Turbo. Все остальные модели потеряли голоса Arena Elo Rating (до - 10 пунктов), кроме OpenChat_3.5 от Apache (+ 4 пункта). Из некоммерческих моделей по-прежнему только Vicuna-33B.

Arena Elo Rating - рейтинг на основе более 100 тысяч анонимных голосов Chatbot Arena (эталонная платформа для больших языковых моделей);

MT-Bench(score) - оценка с помощью судейства LLM;

MMLU - тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.