Nvidia выпустила малую языковую модель для управления человекоподобными роботами



Ключевое отличие работы модели Hover (Humanoid Versatile Controller) от аналогичных решений в том, что SML от Nvidia (у нее всего 1,5 млн параметров) позволяет управлять всем роботом сразу. Аналогичные решения используют отдельные алгоритмы для каждого режима, в котором должен использоваться робот — это излишне усложняет всю систему и обычно означает, что количество действий, доступных роботу, очень ограничено.



Nvidia тренировала Hover в ускоренном режиме — благодаря использованию виртуальной платформы Isaac Sim целый год обучения различным движениям удалось уместить всего в 50 мин (за счет того, что движения, которым обучали робота, были ускорены в 10 тыс. раз).



Boston Dynamics, Figure AI и другие разработчики человекоподобных роботов также используют Isaac Sim для обучения. 



Для перевода визуальной информации в текст Hover работает в паре с видеоязыковой моделью (VLM).



SML можно сразу использовать по назначению без необходимости доучивания для конкретной модели. В Nvidia утверждают, что с помощью их сервисов роботов можно начинать использовать для решения задач уже через несколько минут, не тратя лишнее время на настройку.



Hover совместима с различными устройствами, включая те, которые отслеживают движения головы, рук и управляют движениями (XR-хедсеты, контроллеры, RGB-камеры).



Hover является частью проекта Groot, который запустила Nvidia. Цель проекта — создать экосистему, в которую будут входить базовые AI-модели, библиотеки с программным кодом и другие инструменты, которые будут ускорять разработку будущих моделей роботов.