🚀 Как ускорить инференс LLM



Инференсом ML-модели называют процесс её работы на конечном устройстве. Соответственно, чем больше мы разгоняем инференс, тем быстрее работает модель. Скорость может зависеть от разных условий, например, от архитектуры, которую вы выбрали для модели, или от железа, на котором работает устройство. Кроме того, проблема тяжёлого инференса остро ощущается на больших языковых моделях (LLM) так остро, как ни на каких других моделях.



📖 Старший ML-разработчик в команде YandexGPT Роман Горб в большой статье на Хабре рассказал о задаче ускорения инференса LLM:



🔘 Какие факторы влияют на время работы модели и как они связаны с внутренним устройством GPU

🔘 На примере показал с какими сложностями сталкиваются команды при внедрении LLM-ок в реальные продукты

🔘 Как найти оптимум между скоростью и качеством, используя фронт Парето

🔘 Подробно разобрал популярные методы в классах дистилляции и квантизации моделей

🔘 А также описал дополнительные техники: Speculative Decoding и Continuous Batching, которые применяются немного реже



Подписывайтесь:

💬 @Yandex4ML

📹 @YandexforML