Старший Авгур

3 слова, которые мечтает услышать каждый человек (контекст)

Читать далее

Я сейчас дособираю многоходовые промпты для датасета предпочтений, а то боюсь, что модель перестанет...

Читать далее

Кратко про RL-like методы в обучении языковых моделей.Proximal Policy Optimization (PPO)https://arxi...

Читать далее

А вот это забавно, KTO с первой попытки завёлся. Только слишком большая длина смущает.

Читать далее

Неделя работы и 1.5% сырого винрейта (в пределах погрешности) 😔Ну хоть хуже не стало, и на том спас...

Читать далее

Знаете, где ещё забыли не считать лосс по pad-токенам? В TRL!https://github.com/huggingface/trl/blob...

Читать далее

Спарсил все запросы из lmsys, которые ещё не были в tagengo или других датасетах, вручную отсмотрел...

Читать далее

Обожаю запросы юзеров. На этом скриншоте каждый может найти что-то своё

Читать далее

Рейтинг LLM в роулплее на русскомВы не просили, я - сделал. Рейтинг оценивает два фактора: качество...

Читать далее

Рейтинг LLM в роулплее на русскомВы не просили, я - сделал. Рейтинг оценивает два фактора: качество...

Читать далее