
Nvidia значительно улучшила производительность ИИ на видеокартах GeForce RTX и платформах RTX AI PC с выпуском последнего драйвера GeForce Game Ready версии 555.85 WHQL. Это было анонсировано в ходе конференции Microsoft Build, где были представлены новые оптимизации производительности для алгоритмов ИИ в экосистеме RTX, включая GeForce RTX, рабочие станции и ПК.
Основные моменты обновления:
- Трехкратное увеличение ИИ-производительности на GeForce RTX и платформах RTX AI PC при использовании фреймворков ONNX Runtime (ORT) и DirectML на Windows.
- Улучшение производительности WebNN для DirectML, что помогает веб-разработчикам размещать новые ИИ-модели.
- Сотрудничество Nvidia с Microsoft для улучшения производительности RTX GPU и добавления поддержки DirectML в PyTorch.
Новый драйвер предлагает:
- Поддержку метакоманды DQ-GEMM для обработки квантования INT4 только по весу для больших языковых моделей (LLM).
- Новые методы нормализации RMSNorm для моделей Llama 2, Llama 3, Mistral и Phi-3.
- Механизмы группового и многозапросного внимания, а также внимания скользящего окна для Mistral.
- Обновления KV для улучшения внимания.
- Поддержка GEMM-тензоров, не кратных 8, для улучшения производительности контекстной фазы.
Тесты производительности показали значительный прирост производительности для типов данных INT4 и FP16, и до трехкратного увеличения производительности для моделей Phi-3, Llama 3, Gemma и Mistral благодаря новым методам оптимизации.
Nvidia также подчеркивает, что экосистема RTX использует тензорные ядра для различных технологий, включая DLSS Super Resolution, Nvidia Ace, RTX Remix, Omniverse, Broadcast, RTX Video и другие. Компания предлагает комплекты разработчиков TensorRT, Maxine и RTX Video для использования тензорных ядер в ускорении работы ИИ. Отмечается, что ИИ-производительность GPU Nvidia достигает до 1300 TOPS, что значительно превосходит конкурентные решения.
Основные моменты обновления:
- Трехкратное увеличение ИИ-производительности на GeForce RTX и платформах RTX AI PC при использовании фреймворков ONNX Runtime (ORT) и DirectML на Windows.
- Улучшение производительности WebNN для DirectML, что помогает веб-разработчикам размещать новые ИИ-модели.
- Сотрудничество Nvidia с Microsoft для улучшения производительности RTX GPU и добавления поддержки DirectML в PyTorch.
Новый драйвер предлагает:
- Поддержку метакоманды DQ-GEMM для обработки квантования INT4 только по весу для больших языковых моделей (LLM).
- Новые методы нормализации RMSNorm для моделей Llama 2, Llama 3, Mistral и Phi-3.
- Механизмы группового и многозапросного внимания, а также внимания скользящего окна для Mistral.
- Обновления KV для улучшения внимания.
- Поддержка GEMM-тензоров, не кратных 8, для улучшения производительности контекстной фазы.
Тесты производительности показали значительный прирост производительности для типов данных INT4 и FP16, и до трехкратного увеличения производительности для моделей Phi-3, Llama 3, Gemma и Mistral благодаря новым методам оптимизации.
Nvidia также подчеркивает, что экосистема RTX использует тензорные ядра для различных технологий, включая DLSS Super Resolution, Nvidia Ace, RTX Remix, Omniverse, Broadcast, RTX Video и другие. Компания предлагает комплекты разработчиков TensorRT, Maxine и RTX Video для использования тензорных ядер в ускорении работы ИИ. Отмечается, что ИИ-производительность GPU Nvidia достигает до 1300 TOPS, что значительно превосходит конкурентные решения.