Душный NLP

Метод борьбы с likelihood displacement в DPOДатасет для Direct Preference Optimization (DPO) состоит...

Механизм аттеншена NSANative Sparse Attention (NSA) — механизм разреженного аттеншена от инженеров и...

YandexGPT 5 уже в опенсорсе и АлисеСегодня Яндекс показал миру новое поколение больших языковых моде...

Яндекс выпустила новое поколение LLM — YandexGPT 5. Модели можно опробовать в облаке, Алисе и открыт...

Документный LLM-переводчик в ЯндексеЯндекс запустил новую модель для документного перевода на основе...

А в нашем канале ML Underhood (подписывайтесь, если ещё не!) — краткий обзор большой статьи о новом...

Сбалансированный метод семплирования Min-pMin-p — метод семплирования, который, по словам его созда...

Технический отчёт DeepSeek-R1DeepSeek-R1 — опенсорсная модель, которая на равных конкурирует с o1 от...

Лучшие публикации 2024-го по мнению инженеров ЯндексаВ 2024 году вышло так много статей по ML, что ч...

Интересные решения из технического отчёта DeepSeek-V3 — часть IIПродолжаем разбираться, как устроена...