Введение 3D Referring Expression Segmentation (3D-RES) становится значимой темой в мультимодальной области, вызывая интерес исследователей. Задача 3D-RES фокусируется на сегментации экземпляров на основе естественно-языковых выражений. Однако текущие методы ограничены сегментацией одного объекта, что является узким местом для их применения.



В реальности часто требуется определить несколько целей, либо цели могут отсутствовать совсем. Существующие модели 3D-RES не справляются с такими ситуациями. Чтобы восполнить этот пробел, был предложен метод Generalized 3D Referring Expression Segmentation (3D-GRES).



Основная задача 3D-GRES – точная идентификация нескольких целей из группы объектов. Метод использует Multi-Query Decoupled Interaction Network (MDIN), который позволяет обрабатывать многообъектные запросы. MDIN помогает разделять запросы и взаимодействовать с суперточками и текстом. ...



Читать далее...