Dealer.AI

🔥TensorRT-LLM

👉Ваш любимый нейронный ускоритель получил расширение!

TensorRT - движок, который применяет оптимизации для эффективного использования NVIDIA-GPU в Deep Learning.

Что интересного?

💡Интеграция с NVIDIA Triton Inference Server

💡Поддержка Multiple GPU

💡Python API (очень напоминает API HF)

💡Есть поддержка 17 моделей (с примерами): Blib2, LLaMa 1/2, GPT-like, StarCoder, Bert, etc

💡Поддержка квантизации: FP32, FP16, BF16, FP8, INT8, INT4

💡Beam-search & Greedy-search

... и многое другое!

Multi-head Attention (MHA), Multi-query Attention (MQA), Group-query Attention (GQA), In-flight Batching, Paged KV Cache for the Attention, Tensor Parallelism, Pipeline Parallelism, INT4/INT8 Weight-Only Quantization (W4A16 & W8A16), SmoothQuant, GPTQ, AWQ, RoPE

@gradientdip

Конечно, сейчас проект сыроват, но все впереди

Github

Performance (не нашел сравнения с обычным TensorRT)

Документация