🔥MTTR: End-to-End Text Referring Video Object Segmentation
Представлена новая SOTA в сегментации объектов на видео по их текстовому описанию. Качество просто невероятное!
Модель основана на мультимодальном трансформере, в который подаются фичи от текстового энкодера (RoBERTa) и видео энкодера (Video Swin). Примечательно, что в отличие от предыдущих решений, обучение здесь end2end — sequence prediction problem.
P.S. Авторы опубликали и код, и веса моделей 👍
Статья, GitHub
Представлена новая SOTA в сегментации объектов на видео по их текстовому описанию. Качество просто невероятное!
Модель основана на мультимодальном трансформере, в который подаются фичи от текстового энкодера (RoBERTa) и видео энкодера (Video Swin). Примечательно, что в отличие от предыдущих решений, обучение здесь end2end — sequence prediction problem.
P.S. Авторы опубликали и код, и веса моделей 👍
Статья, GitHub