Нейроскептик

Последний рейтинг оценки лидеров больших языковых моделей (LLM) от huggingface:

Arena Elo Rating - рейтинг на основе более 50 тысяч анонимных голосов Chatbot Arena (эталонная платформа для больших языковых моделей);

MT-Bench(score) - оценка с помощью судейства LLM;

MMLU - тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.

GPT-4 всё ещё удерживает лидерство по всем показателям.