
Метод RefMask3D позволяет выполнять комплексный анализ мультимодального взаимодействия и различных признаков облака точек. Он объединяет кросс-модальное внимание и языковую модель, переводящую текстовое описание в структуру токенов. RefMask3D использует архитектуры, такие как энкодер точек и декодер с Transformer, для улучшения работы с лингвистическими и геометрическими данными. Важная часть — модуль кластера объектов, который интегрирует данные из разных источников и создает эмбединги объектов, улучшая общую точность модели на 1.57%. Операции выполняются с использованием алгоримов самовнимания и кросс-внимания для детального анализа данных.
Читать далее...
Читать далее...