Паша AI AI AI

Nitro — это лёгкий сервер (всего 3 Мб) для создания встроенных (embedded) сервисов инференса llm, который отличается высокой производительностью и поддержкой как CPU, так и GPU.

По сравнению с конкурентами, такими как FastChat или oobabooga, у Nitro есть несколько ключевых преимуществ:

- он обеспечивает высокую производительность при выполнении запросов и поддерживает все основные архитектуры CPU (x86, ARM, M1), а также производителей GPU (AMD, Nvidia);

- быстрая настройка и удобство интеграций благодаря совместимости с OpenAI API.

На данный момент модели работают на основе высокопроизводительной библиотеки llama.cpp, но в будущем планируется добавить поддержку ещё одного движка — TensorRT-LLM. Также в планах расширить поддержку моделей для распознавания речи и генерации изображений (StableDiffusion).

Nitro основан на HTTP-фреймворке Drogon, написанном на C++14/17. Этот фреймворк эффективно управляет HTTP-запросами, используя неблокирующий ввод-вывод и событийную архитектуру.

В целом Nitro позволяет быстро реализовать интеграции моделей искусственного интеллекта в реальные приложения, делая преимущества машинного обучения доступными и полезными в широком спектре сценариев.