Пошёл новый урожай картохи либ для inference and serving LLM - vllm



Много знакомых приходит с вопросом, какие либы посоветуешь для инференса LLM. Обычно сношаются с этим: text-generation-inference; FasterTransformer. Понятно ещё докучи + accelerate и bits and bytes. Вот вам в копилочку ещё VLLM.



VLLM это либа, которая даёт возможность удобного сервинга/инференса с использованием:



- Поддержка оптимизаций с CUDA



- Интеграция с моделями HF (gpt-neo, LLAMA like, opt, gpt2 like etc.)



- Динамический батчинг для входящих запросов, beam search, parallel sampling etc.



- TensorParallelism для multigpu inference.



- Оптимизация attention inference с Paged attention.



И др.



Дока и блогпост тут.



Попробуйте сами и делитесь в комментариях как оно.