Догоняние Вихря... затянулось.
Модель явно перестала быть дерьмом после фикса системного сообщения, но подняться выше 74 на арене пока не получилось. Зато на ПингПонге она на второй позиции, сразу после Соннета, что лучше, чем Вихрь. Завтра буду добавлять on-policy side-by-side разметку, до этого момента модель училась только на парах из других моделей. Ну то есть сейчас я насэмплировал по 3 предсказания из SFT версии, по 3 предсказания из SimPO версии, и теперь попарно буду их сравнивать. Промпты использовал из текущего датаста (saiga_preferences). Итоговую разметку долью в обучающую выборку. Должно помочь.
Ещё я много чего понял про SimPO! У него есть два режима: в первом модель разносит, во втором модель ничего не выучивает. Стандартными способами регуляризации очень сложно находить баланс между ними. Единственное, что прямо хорошо сработало — добавление SFT лосса (в trl это означает cpo_alpha > 0). Вихрёвская версия SimPO это учитывает и вполне разумна, просто я не хочу использовать нестандартные кубики.
Модель явно перестала быть дерьмом после фикса системного сообщения, но подняться выше 74 на арене пока не получилось. Зато на ПингПонге она на второй позиции, сразу после Соннета, что лучше, чем Вихрь. Завтра буду добавлять on-policy side-by-side разметку, до этого момента модель училась только на парах из других моделей. Ну то есть сейчас я насэмплировал по 3 предсказания из SFT версии, по 3 предсказания из SimPO версии, и теперь попарно буду их сравнивать. Промпты использовал из текущего датаста (saiga_preferences). Итоговую разметку долью в обучающую выборку. Должно помочь.
Ещё я много чего понял про SimPO! У него есть два режима: в первом модель разносит, во втором модель ничего не выучивает. Стандартными способами регуляризации очень сложно находить баланс между ними. Единственное, что прямо хорошо сработало — добавление SFT лосса (в trl это означает cpo_alpha > 0). Вихрёвская версия SimPO это учитывает и вполне разумна, просто я не хочу использовать нестандартные кубики.