🔥MTTR: End-to-End Text Referring Video Object Segmentation



Представлена новая SOTA в сегментации объектов на видео по их текстовому описанию. Качество просто невероятное!



Модель основана на мультимодальном трансформере, в который подаются фичи от текстового энкодера (RoBERTa) и видео энкодера (Video Swin). Примечательно, что в отличие от предыдущих решений, обучение здесь end2end — sequence prediction problem.



P.S. Авторы опубликали и код, и веса моделей 👍



Статья, GitHub