Визуальные трансформеры улучшат зрение беспилотников
Месяц назад я писала про исследователей из Института AIRI, которые нашли способ улучшить зрение роботов с помощью гибридных ИИ-моделей. Подробностей тогда было не очень много, поэтому я ждала выступление авторов проекта на AI Journey, чтобы узнать, что скрыто «под капотом» их детища. Дождалась и делюсь услышанным с вами.
Что такое карты глубины и как их строят?
Карта глубины — это изображение, каждый пиксель которого содержит информацию об относительном расстоянии от объекта до камеры. Такие карты используют для ориентации беспилотников в пространстве.
Для реконструкции глубины сцены обычно применяют специальные сенсоры: радар, камеру со структурированным подсветом или лидар. Каждый из этих методов обладает своими недостатками:
👁Радар имеет малый радиус действия, поэтому плохо регистрирует глубину дальних объектов.
👁Камера со структурированным подсветом выдаёт результат с большим количеством шумов
👁Лидар плохо справляется со сложно структурированными поверхностями (например, кронами деревьев)
Чтобы улучшить качество карт глубины специалисты применяют нейросети. Однако и тут всё не так просто — обучение таких моделей требует набор специально размеченных данных, поэтому, как правило, это очень длительный и трудоёмкий процесс.
Как эту проблему решили в AIRI
Специалисты AIRI создали самообучающуюся систему, которой вообще не нужны размеченные данные с сенсоров глубины. Это значительно упрощает процесс построения модели.
В чём секрет? Обычно специалисты использовали для оценки глубины архитектуры, основанные на свёрточных нейросетях. Это давало ограниченное поле восприятия, то есть все признаки отбирались локально при обучении фильтров.
Исследователи из AIRI решили использовать гибридную архитектуру с применением визуальных трансформеров. Они протестировали различные сочетания блоков на входе и выходе, использовав в экспериментах свёрточную нейросеть ResNet18 и трансформер PVTv2.
В роли датасетов выступили два популярных набора — KITTI (уличные сцены, отснятые с применением лидара) и NYUv2 (интерьеры помещений, полученные при помощи камеры Microsoft Kinect).
В итоге наилучший результат продемонстрировала модель с трансфомером на входе и свёрточной нейронкой на выходе. Такой гибрид показывает глобальную согласованность сцены и лучше справляется с выделением сложных объектов, причём как на улице, так и внутри помещений.
Впрочем, есть и минус — использование трансформеров замедляет модель в 2 раза. Однако её всё равно можно использовать в реальном времени.
Исследователи рассчитывают, что в будущем их наработки можно будет применять в системах компьютерного зрения и AR-приложениях.
Месяц назад я писала про исследователей из Института AIRI, которые нашли способ улучшить зрение роботов с помощью гибридных ИИ-моделей. Подробностей тогда было не очень много, поэтому я ждала выступление авторов проекта на AI Journey, чтобы узнать, что скрыто «под капотом» их детища. Дождалась и делюсь услышанным с вами.
Что такое карты глубины и как их строят?
Карта глубины — это изображение, каждый пиксель которого содержит информацию об относительном расстоянии от объекта до камеры. Такие карты используют для ориентации беспилотников в пространстве.
Для реконструкции глубины сцены обычно применяют специальные сенсоры: радар, камеру со структурированным подсветом или лидар. Каждый из этих методов обладает своими недостатками:
👁Радар имеет малый радиус действия, поэтому плохо регистрирует глубину дальних объектов.
👁Камера со структурированным подсветом выдаёт результат с большим количеством шумов
👁Лидар плохо справляется со сложно структурированными поверхностями (например, кронами деревьев)
Чтобы улучшить качество карт глубины специалисты применяют нейросети. Однако и тут всё не так просто — обучение таких моделей требует набор специально размеченных данных, поэтому, как правило, это очень длительный и трудоёмкий процесс.
Как эту проблему решили в AIRI
Специалисты AIRI создали самообучающуюся систему, которой вообще не нужны размеченные данные с сенсоров глубины. Это значительно упрощает процесс построения модели.
В чём секрет? Обычно специалисты использовали для оценки глубины архитектуры, основанные на свёрточных нейросетях. Это давало ограниченное поле восприятия, то есть все признаки отбирались локально при обучении фильтров.
Исследователи из AIRI решили использовать гибридную архитектуру с применением визуальных трансформеров. Они протестировали различные сочетания блоков на входе и выходе, использовав в экспериментах свёрточную нейросеть ResNet18 и трансформер PVTv2.
В роли датасетов выступили два популярных набора — KITTI (уличные сцены, отснятые с применением лидара) и NYUv2 (интерьеры помещений, полученные при помощи камеры Microsoft Kinect).
В итоге наилучший результат продемонстрировала модель с трансфомером на входе и свёрточной нейронкой на выходе. Такой гибрид показывает глобальную согласованность сцены и лучше справляется с выделением сложных объектов, причём как на улице, так и внутри помещений.
Впрочем, есть и минус — использование трансформеров замедляет модель в 2 раза. Однако её всё равно можно использовать в реальном времени.
Исследователи рассчитывают, что в будущем их наработки можно будет применять в системах компьютерного зрения и AR-приложениях.