Старший Авгур

3 слова, которые мечтает услышать каждый человек (контекст)
Читать далееЯ сейчас дособираю многоходовые промпты для датасета предпочтений, а то боюсь, что модель перестанет...
Читать далееКратко про RL-like методы в обучении языковых моделей.Proximal Policy Optimization (PPO)https://arxi...
Читать далее
А вот это забавно, KTO с первой попытки завёлся. Только слишком большая длина смущает.
Читать далее
Неделя работы и 1.5% сырого винрейта (в пределах погрешности) 😔Ну хоть хуже не стало, и на том спас...
Читать далееЗнаете, где ещё забыли не считать лосс по pad-токенам? В TRL!https://github.com/huggingface/trl/blob...
Читать далееСпарсил все запросы из lmsys, которые ещё не были в tagengo или других датасетах, вручную отсмотрел...
Читать далее
Обожаю запросы юзеров. На этом скриншоте каждый может найти что-то своё
Читать далее
Рейтинг LLM в роулплее на русскомВы не просили, я - сделал. Рейтинг оценивает два фактора: качество...
Читать далее
Рейтинг LLM в роулплее на русскомВы не просили, я - сделал. Рейтинг оценивает два фактора: качество...
Читать далее