Старший Авгур

3 слова, которые мечтает услышать каждый человек (контекст)

Я сейчас дособираю многоходовые промпты для датасета предпочтений, а то боюсь, что модель перестанет...

Кратко про RL-like методы в обучении языковых моделей.Proximal Policy Optimization (PPO)https://arxi...

А вот это забавно, KTO с первой попытки завёлся. Только слишком большая длина смущает.

Неделя работы и 1.5% сырого винрейта (в пределах погрешности) 😔Ну хоть хуже не стало, и на том спас...

Знаете, где ещё забыли не считать лосс по pad-токенам? В TRL!https://github.com/huggingface/trl/blob...

Спарсил все запросы из lmsys, которые ещё не были в tagengo или других датасетах, вручную отсмотрел...

Обожаю запросы юзеров. На этом скриншоте каждый может найти что-то своё

Рейтинг LLM в роулплее на русскомВы не просили, я - сделал. Рейтинг оценивает два фактора: качество...

Рейтинг LLM в роулплее на русскомВы не просили, я - сделал. Рейтинг оценивает два фактора: качество...