Душный NLP

Метод борьбы с likelihood displacement в DPOДатасет для Direct Preference Optimization (DPO) состоит...
Читать далее
Механизм аттеншена NSANative Sparse Attention (NSA) — механизм разреженного аттеншена от инженеров и...
Читать далее
YandexGPT 5 уже в опенсорсе и АлисеСегодня Яндекс показал миру новое поколение больших языковых моде...
Читать далееЯндекс выпустила новое поколение LLM — YandexGPT 5. Модели можно опробовать в облаке, Алисе и открыт...
Читать далее
Документный LLM-переводчик в ЯндексеЯндекс запустил новую модель для документного перевода на основе...
Читать далееА в нашем канале ML Underhood (подписывайтесь, если ещё не!) — краткий обзор большой статьи о новом...
Читать далее
Сбалансированный метод семплирования Min-pMin-p — метод семплирования, который, по словам его созда...
Читать далее
Технический отчёт DeepSeek-R1DeepSeek-R1 — опенсорсная модель, которая на равных конкурирует с o1 от...
Читать далее
Лучшие публикации 2024-го по мнению инженеров ЯндексаВ 2024 году вышло так много статей по ML, что ч...
Читать далее
Интересные решения из технического отчёта DeepSeek-V3 — часть IIПродолжаем разбираться, как устроена...
Читать далее