Пошёл новый урожай картохи либ для inference and serving LLM - vllm
Много знакомых приходит с вопросом, какие либы посоветуешь для инференса LLM. Обычно сношаются с этим: text-generation-inference; FasterTransformer. Понятно ещё докучи + accelerate и bits and bytes. Вот вам в копилочку ещё VLLM.
VLLM это либа, которая даёт возможность удобного сервинга/инференса с использованием:
- Поддержка оптимизаций с CUDA
- Интеграция с моделями HF (gpt-neo, LLAMA like, opt, gpt2 like etc.)
- Динамический батчинг для входящих запросов, beam search, parallel sampling etc.
- TensorParallelism для multigpu inference.
- Оптимизация attention inference с Paged attention.
И др.
Дока и блогпост тут.
Попробуйте сами и делитесь в комментариях как оно.
Много знакомых приходит с вопросом, какие либы посоветуешь для инференса LLM. Обычно сношаются с этим: text-generation-inference; FasterTransformer. Понятно ещё докучи + accelerate и bits and bytes. Вот вам в копилочку ещё VLLM.
VLLM это либа, которая даёт возможность удобного сервинга/инференса с использованием:
- Поддержка оптимизаций с CUDA
- Интеграция с моделями HF (gpt-neo, LLAMA like, opt, gpt2 like etc.)
- Динамический батчинг для входящих запросов, beam search, parallel sampling etc.
- TensorParallelism для multigpu inference.
- Оптимизация attention inference с Paged attention.
И др.
Дока и блогпост тут.
Попробуйте сами и делитесь в комментариях как оно.