Старший Авгур

🎆

Небольшая лекция об Alignment и как мы его готовим

Это слайды с текстом, пока устно ее я рассказывал только внутри команды Vikhr.

Внутри вы узнаете:

- Теория Bradley-Terry и откуда берутся Reward модели

- Что нужно для обучения Reward модели и как его делаем мы

- Откуда взялся DPO и каковы его недостатки

- Какова мотивация нас и других авторов улучшать DPO

- Как устроен наш функционал SMPO - Simple Margin Preference Optimization

- Какие есть способы улучшения DPO на уровне данных и как готовим эти данные мы

Задавайте вопросы в комментариях, если что-то непонятно, будем обсуждать.