📊 Как оценивать LLM: бенчмарки [Ч.2]



В прошлой части данной темы мы подробно разобрали метрики, с помощью которых можно оценивать LLM. Сегодня поговорим про оценку через бенчмарки.



❗️Бенчмарк - это набор тестовых вопросов для оценки конкретного навыка модели.



Как правило, он работает следующим образом:

1. Берут некоторый стандартный набор запросов к LLM

2. Собирают ответы модели

3. С помощью асессоров/либо автоматической метрикой получают некоторую оценку качества модели



🗑Виды бенчмарков:



1️⃣ Открытые: создаются, как эталоны, для оценки конкретного навыка модели, что позволяет сравнить производительность любой LLM. Зачастую под данными бенчмарками понимаются: MMLU, GSM8K, HumanEval и т.д.

Проблема таких бенчмарков в том, что вся тестовая выборка хранится в открытом доступе (где-нибудь на GitHub), что зачастую приводит к утечке данных в train-датасеты.

ℹ️GSM8K - содержит математические задачи уровня начальной школы; MMLU - создан для проверки уровня фактических знаний LLM по гуманитарным наукам, социальным наукам, истории и даже право; HumanEval - содержит задачи по программированию



2️⃣ Закрытые: имеют аналогичную цель, однако, их особенность в закрытом тестовом наборе данных, которые LLM в процессе обучения не видели. Сюда могут входить: MT-Bench, SQuAD, RE-Bench и т.д.



3️⃣ Собственные (доменные): не всегда доступные бенчмарки пригодны для вашей задачи, поэтому зачастую приходится формировать свои тестовые примеры и способы оценки.



📚Дополнительная литература:

- Простая и очень полезная статья по бенчмаркам от команды Яндекса. Здесь же можно почитать про недостатки различных бенчмарков и этого подхода в целом

- Материалы из прошлой статьи

- Большой набор описаний наиболее популярных бенчмарков

- Статья про самые популярные LLM-бенчмарки

- Статья "Полный гид по бенчмаркам LLM"



Обязательно ставьте ❤️ и 🔥 под постом!

Пишите свои комментарии 🙂