Dealer.AI

Пошёл новый урожай ~~картохи~~ либ для inference and serving LLM - vllm

Много знакомых приходит с вопросом, какие либы посоветуешь для инференса LLM. Обычно сношаются с этим: text-generation-inference; FasterTransformer. Понятно ещё докучи + accelerate и bits and bytes. Вот вам в копилочку ещё VLLM.

VLLM это либа, которая даёт возможность удобного сервинга/инференса с использованием:

- Поддержка оптимизаций с CUDA

- Интеграция с моделями HF (gpt-neo, LLAMA like, opt, gpt2 like etc.)

- Динамический батчинг для входящих запросов, beam search, parallel sampling etc.

- TensorParallelism для multigpu inference.

- Оптимизация attention inference с Paged attention.

И др.

Дока и блогпост тут.

Попробуйте сами и делитесь в комментариях как оно.