🏆 Лучшее за год в Душном NLP



Конец года — время подводить итоги и рассказывать о достижениях. Спасибо, что подписывались, читали, комментировали и ставили реакции на посты. О самых популярных из них мы сейчас и расскажем. Хороший способ вспомнить интересное или наверстать упущенное.



Масштабирование и параметризация



Разбор сразу двух статей о сохранении стабильности гиперпараметров при масштабировании модели. Авторы одной работы предлагают озаботиться правильным масштабированием инициализаций и послойных LR, либо напрямую спектральной нормализацией матриц весов и их обновлений в процессе обучения. Авторы другой статьи считают, что обновления весов в градиентном спуске имеют низкий ранг и хорошо согласуются с векторами активаций.



SpecExec: cпекулятивное декодирование для запуска больших моделей на потребительских GPU



Метод SpecExec позволяет генерировать до 20 токенов за итерацию и достигает ускорения x15 при офлодинге. Производительность достигается за счёт использования высокой пиковости распределений вероятностей токенов в современных LLM.



ReMax как альтернатива PPO



Авторы статьи предлагают замену алгоритму Proximal Policy Optimization (PPO). В отличие от последнего, в ReMax в качестве бейзлайна не используется отдельная value-модель. Благодаря этому снижение потребления GPU-памяти составляет до 46%.



Ограничения Instruction Tuning и как их преодолеть



Авторы рассматривают то, как LoRA (Low-Rank Adaptation) может помочь нивелировать недостатки SFT. Эксперименты показывают, что LoRA-модель действительно даёт более точные ответы, при этом метод остаётся эффективным даже на небольших датасетах.



TDPO — потокенный DPO или просто регуляризация?



Разбор статьи, авторы которой предложили метод потокеннного DPO. На деле всё оказывается не так просто. Результаты действительно улучшились, но, похоже, что авторы просто добавили регуляризацию.



Mixture-of-Agents — простой способ улучшения ответов LLM



Суть метода Mixture-of-Agents заключается в использовании нескольких LLM на разных слоях для генерации ответов на один и тот же вопрос. Результат превосходит по качеству то, что выдавала бы одна модель.



Что такое дистилляция и как она применяется в LLM



Дистилляция — это передача знаний от тяжёлой модели более лёгкой. В посте рассказали, как появилась дистилляция и какие методы в ней используют, например, применение датасета reward-модели и расширение набора данных с помощью генерации с разными параметрами.



DeepSeek-V2 — MoE-модель с технологией MLA



DeepSeek-V2 — модель на 236 миллиардов параметров. Модифицированный attention MLA (Multi-Head Latent Attention) позволяет ей значительно снизить объём ресурсов, необходимых для работы.



Карточки с интересными статьями с ICLR и два поста с занимательными статьями с ICML



А ещё в этом году мы побывали на конференциях ICLR и ICML — и увидели там очень много интересных статей. Обо всех них мы рассказывали в серии постов.



Душный NLP