Душный NLP

Метод борьбы с likelihood displacement в DPOДатасет для Direct Preference Optimization (DPO) состоит...

Читать далее

Механизм аттеншена NSANative Sparse Attention (NSA) — механизм разреженного аттеншена от инженеров и...

Читать далее

YandexGPT 5 уже в опенсорсе и АлисеСегодня Яндекс показал миру новое поколение больших языковых моде...

Читать далее

Яндекс выпустила новое поколение LLM — YandexGPT 5. Модели можно опробовать в облаке, Алисе и открыт...

Читать далее

Документный LLM-переводчик в ЯндексеЯндекс запустил новую модель для документного перевода на основе...

Читать далее

А в нашем канале ML Underhood (подписывайтесь, если ещё не!) — краткий обзор большой статьи о новом...

Читать далее

Сбалансированный метод семплирования Min-pMin-p — метод семплирования, который, по словам его созда...

Читать далее

Технический отчёт DeepSeek-R1DeepSeek-R1 — опенсорсная модель, которая на равных конкурирует с o1 от...

Читать далее

Лучшие публикации 2024-го по мнению инженеров ЯндексаВ 2024 году вышло так много статей по ML, что ч...

Читать далее

Интересные решения из технического отчёта DeepSeek-V3 — часть IIПродолжаем разбираться, как устроена...

Читать далее