πŸ”₯TensorRT-LLM



πŸ‘‰Π’Π°Ρˆ Π»ΡŽΠ±ΠΈΠΌΡ‹ΠΉ Π½Π΅ΠΉΡ€ΠΎΠ½Π½Ρ‹ΠΉ ΡƒΡΠΊΠΎΡ€ΠΈΡ‚Π΅Π»ΡŒ ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ» Ρ€Π°ΡΡˆΠΈΡ€Π΅Π½ΠΈΠ΅!



TensorRT - Π΄Π²ΠΈΠΆΠΎΠΊ, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ примСняСт ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΠΈ для эффСктивного использования NVIDIA-GPU Π² Deep Learning.



Π§Ρ‚ΠΎ интСрСсного?



πŸ’‘Π˜Π½Ρ‚Π΅Π³Ρ€Π°Ρ†ΠΈΡ с NVIDIA Triton Inference Server

πŸ’‘ΠŸΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° Multiple GPU

πŸ’‘Python API (ΠΎΡ‡Π΅Π½ΡŒ Π½Π°ΠΏΠΎΠΌΠΈΠ½Π°Π΅Ρ‚ API HF)

πŸ’‘Π•ΡΡ‚ΡŒ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° 17 ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ (с ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π°ΠΌΠΈ): Blib2, LLaMa 1/2, GPT-like, StarCoder, Bert, etc

πŸ’‘ΠŸΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ° ΠΊΠ²Π°Π½Ρ‚ΠΈΠ·Π°Ρ†ΠΈΠΈ: FP32, FP16, BF16, FP8, INT8, INT4

πŸ’‘Beam-search & Greedy-search

... ΠΈ ΠΌΠ½ΠΎΠ³ΠΎΠ΅ Π΄Ρ€ΡƒΠ³ΠΎΠ΅!



Multi-head Attention (MHA), Multi-query Attention (MQA), Group-query Attention (GQA), In-flight Batching, Paged KV Cache for the Attention, Tensor Parallelism, Pipeline Parallelism, INT4/INT8 Weight-Only Quantization (W4A16 & W8A16), SmoothQuant, GPTQ, AWQ, RoPE



@gradientdip



ΠšΠΎΠ½Π΅Ρ‡Π½ΠΎ, сСйчас ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ сыроват, Π½ΠΎ всС Π²ΠΏΠ΅Ρ€Π΅Π΄ΠΈ



Github

Performance (Π½Π΅ нашСл сравнСния с ΠΎΠ±Ρ‹Ρ‡Π½Ρ‹ΠΌ TensorRT)

ДокумСнтация