
Если кого-то интересует, как там новая Сайга, то новая Сайга пока не очень. Есть ощущение, что на Немо просто нужно пролить несколько больше токенов, чем есть в текущем датасете.
На картинке результаты арены на текущих попытках. Это уже лучше всего, что у меня было до этого, но всё ещё хуже Вихря.
Какой план:
- Добить SFT до 55 перебором параметров и доливкой данных в датасет. Начну я с чистки новых логов бота (аж 4к диалогов) и стыривания system_chat части GrandMaster-PRO-MAX.
- SimPO работает уже офигительно, а там пока была только одна попытка. Имхо, вращение гаммы и беты может вполне докинуть до 5 пунктов.
На картинке результаты арены на текущих попытках. Это уже лучше всего, что у меня было до этого, но всё ещё хуже Вихря.
Какой план:
- Добить SFT до 55 перебором параметров и доливкой данных в датасет. Начну я с чистки новых логов бота (аж 4к диалогов) и стыривания system_chat части GrandMaster-PRO-MAX.
- SimPO работает уже офигительно, а там пока была только одна попытка. Имхо, вращение гаммы и беты может вполне докинуть до 5 пунктов.