Старший Авгур

Пока ORPO не завелось. Причём технически всё неплохо, модель выучивает предпочтения, и её в целом не...

Читать далее

В апреле я побывал в гостях в Университете Тарту. И одна из свежих штук, которую мне там показали -...

Читать далее

Когда на секунду стало хорошо, но потом всё снова стало как обычно 😭

Читать далее

Воткнул vllm инференс вместо transformers, общее время инференса на 415 примерах стало 2 минуты вмес...

Читать далее

Собственно, LMSYS почесали репу и придумали новый бенчмарк, Arena Hard v0.1Ключевых метрики для срав...

Читать далее

Отнормировал лидерборд на последнюю версию Сайги. Slim - это модель, обученная только на примерах с...

Читать далее

Настроение, когда придумываешь темы для запросов.

Читать далее

Почти доразметил Опусом русскую часть gpt-4 WildChat'а. Там есть под сотню примеров, где Опус даже о...

Читать далее

8.19 у v4 Сайги на русском MT-Bench'е, то есть точно такая же оценка, как у Судзуме. Однако, обратит...

Читать далее

Новые данные (gpt4_conversations_multilingual) и щепотка дедупликации сделали только чуть-чуть хуже....

Читать далее