Stable Diffusion | Automatic 1111 | ComfiUI

Nvidia значительно улучшила производительность ИИ на видеокартах GeForce RTX и платформах RTX AI PC с выпуском последнего драйвера GeForce Game Ready версии 555.85 WHQL. Это было анонсировано в ходе конференции Microsoft Build, где были представлены новые оптимизации производительности для алгоритмов ИИ в экосистеме RTX, включая GeForce RTX, рабочие станции и ПК.

Основные моменты обновления:

- Трехкратное увеличение ИИ-производительности на GeForce RTX и платформах RTX AI PC при использовании фреймворков ONNX Runtime (ORT) и DirectML на Windows.

- Улучшение производительности WebNN для DirectML, что помогает веб-разработчикам размещать новые ИИ-модели.

- Сотрудничество Nvidia с Microsoft для улучшения производительности RTX GPU и добавления поддержки DirectML в PyTorch.

Новый драйвер предлагает:

- Поддержку метакоманды DQ-GEMM для обработки квантования INT4 только по весу для больших языковых моделей (LLM).

- Новые методы нормализации RMSNorm для моделей Llama 2, Llama 3, Mistral и Phi-3.

- Механизмы группового и многозапросного внимания, а также внимания скользящего окна для Mistral.

- Обновления KV для улучшения внимания.

- Поддержка GEMM-тензоров, не кратных 8, для улучшения производительности контекстной фазы.

Тесты производительности показали значительный прирост производительности для типов данных INT4 и FP16, и до трехкратного увеличения производительности для моделей Phi-3, Llama 3, Gemma и Mistral благодаря новым методам оптимизации.

Nvidia также подчеркивает, что экосистема RTX использует тензорные ядра для различных технологий, включая DLSS Super Resolution, Nvidia Ace, RTX Remix, Omniverse, Broadcast, RTX Video и другие. Компания предлагает комплекты разработчиков TensorRT, Maxine и RTX Video для использования тензорных ядер в ускорении работы ИИ. Отмечается, что ИИ-производительность GPU Nvidia достигает до 1300 TOPS, что значительно превосходит конкурентные решения.