Нейроскептик

За последние две недели в первой десятки рейтинга оценки лидеров больших языковых моделей (LLM) от LMSYS - huggingface произошли следующие изменения:

- GPT-4 Turbo прибавила 26 пунктов в Arena Elo Rating;

- на 6 место вошла LLM Mixtral-8*7b от Apache;

- на 9 месте появилась Gemini Pro с 1111 голосами Arena Elo Rating.

Arena Elo Rating - рейтинг на основе более 130 тысяч анонимных голосов Chatbot Arena (эталонная платформа для больших языковых моделей);

MT-Bench(score) - оценка с помощью судейства LLM;

MMLU - тест для измерения точности понимания языка при многозадачности текстовой модели, включает 57 задач.

Подписаться на Нейроскептик