Старший Авгур

Пока ORPO не завелось. Причём технически всё неплохо, модель выучивает предпочтения, и её в целом не...
Читать далееВ апреле я побывал в гостях в Университете Тарту. И одна из свежих штук, которую мне там показали -...
Читать далее
Когда на секунду стало хорошо, но потом всё снова стало как обычно 😭
Читать далееВоткнул vllm инференс вместо transformers, общее время инференса на 415 примерах стало 2 минуты вмес...
Читать далееСобственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1Ключевых метрики для срав...
Читать далее
Отнормировал лидерборд на последнюю версию Сайги. Slim - это модель, обученная только на примерах с...
Читать далее
Настроение, когда придумываешь темы для запросов.
Читать далееПочти доразметил Опусом русскую часть gpt-4 WildChat'а. Там есть под сотню примеров, где Опус даже о...
Читать далее
8.19 у v4 Сайги на русском MT-Bench'е, то есть точно такая же оценка, как у Судзуме. Однако, обратит...
Читать далее
Новые данные (gpt4_conversations_multilingual) и щепотка дедупликации сделали только чуть-чуть хуже....
Читать далее