
Введение 3D Referring Expression Segmentation (3D-RES) становится значимой темой в мультимодальной области, вызывая интерес исследователей. Задача 3D-RES фокусируется на сегментации экземпляров на основе естественно-языковых выражений. Однако текущие методы ограничены сегментацией одного объекта, что является узким местом для их применения.
В реальности часто требуется определить несколько целей, либо цели могут отсутствовать совсем. Существующие модели 3D-RES не справляются с такими ситуациями. Чтобы восполнить этот пробел, был предложен метод Generalized 3D Referring Expression Segmentation (3D-GRES).
Основная задача 3D-GRES – точная идентификация нескольких целей из группы объектов. Метод использует Multi-Query Decoupled Interaction Network (MDIN), который позволяет обрабатывать многообъектные запросы. MDIN помогает разделять запросы и взаимодействовать с суперточками и текстом. ...
Читать далее...
В реальности часто требуется определить несколько целей, либо цели могут отсутствовать совсем. Существующие модели 3D-RES не справляются с такими ситуациями. Чтобы восполнить этот пробел, был предложен метод Generalized 3D Referring Expression Segmentation (3D-GRES).
Основная задача 3D-GRES – точная идентификация нескольких целей из группы объектов. Метод использует Multi-Query Decoupled Interaction Network (MDIN), который позволяет обрабатывать многообъектные запросы. MDIN помогает разделять запросы и взаимодействовать с суперточками и текстом. ...
Читать далее...