Старший Авгур

Пока ORPO не завелось. Причём технически всё неплохо, модель выучивает предпочтения, и её в целом не...

В апреле я побывал в гостях в Университете Тарту. И одна из свежих штук, которую мне там показали -...

Когда на секунду стало хорошо, но потом всё снова стало как обычно 😭

Воткнул vllm инференс вместо transformers, общее время инференса на 415 примерах стало 2 минуты вмес...

Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1Ключевых метрики для срав...

Отнормировал лидерборд на последнюю версию Сайги. Slim - это модель, обученная только на примерах с...

Настроение, когда придумываешь темы для запросов.

Почти доразметил Опусом русскую часть gpt-4 WildChat'а. Там есть под сотню примеров, где Опус даже о...

8.19 у v4 Сайги на русском MT-Bench'е, то есть точно такая же оценка, как у Судзуме. Однако, обратит...

Новые данные (gpt4_conversations_multilingual) и щепотка дедупликации сделали только чуть-чуть хуже....