DLStories

🔥MTTR: End-to-End Text Referring Video Object Segmentation

Представлена новая SOTA в сегментации объектов на видео по их текстовому описанию. Качество просто невероятное!

Модель основана на мультимодальном трансформере, в который подаются фичи от текстового энкодера (RoBERTa) и видео энкодера (Video Swin). Примечательно, что в отличие от предыдущих решений, обучение здесь end2end — sequence prediction problem.

P.S. Авторы опубликали и код, и веса моделей 👍

Статья, GitHub