Старший Авгур

Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.

Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов слиты в обучающую выборку. Вполне возможно, что это сделано не только в SFT, но и в SMPO фазе.

Код для проверки:



from datasets import load_dataset



examples = dict()

for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):

    examples[row["turns"][0]["content"]] = 0



for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):

    ex = row["conversation"][0]["content"]

    if ex in examples:

        examples[ex] = 1

print(sum(examples.values()))

Я решил поэкспериментировать и сделал то же самое в SFT. Получил +6 пунктов на арене. Справедливости ради, мне всё равно не удалось догнать Вихрь, но, вероятно, это решается доливом теста в SimPO.

Намеренно ли это было сделано? На 99% уверен, что нет.

Делает ли это Вихрь Немо плохой моделью? Тоже нет.

Но хорошо бы это увидеть в карточке модели, да и с арены модель убрать.

UPD: карточку обновили, там об этом теперь написано