Нейроскептик

NVIDIA представила новое программное обеспечение (ПО) TensorRT-LLM для больших языковых моделей (LLM)

По мере развития LLM нужны результаты высокой точности для развертывания модели в производство. Более высокая производительность помогает улучшить взаимодействие с пользователем. Но увеличение размеров LLM приводит к увеличению затрат и сложности внедрения.

TensorRT-LLM — это библиотека с открытым исходным кодом, которая ускоряет и оптимизирует производительность вывода новых LLM на графических процессорах NVIDIA Tensor Core.

Библиотека объединяет компилятор глубокого обучения TensorRT, оптимизированные ядра FasterTransformer, предварительную и постобработку, а также взаимодействие между несколькими графическими процессорами и узлами в простой API Python для оптимизации и выполнения LLM при выводе в производство.

График показывает, что использование TensorRT-LLM для модели GPT-J-6B при суммаризации текстов приводит к увеличению производительности в 8 раз.