DeepSchool

DETR. End-to-End Object Detection with Transformers

DETR - одна из первых работ, в которой соединили CNN и трансформер для решения задачи детекции.

💡Интересная фишка этой модели - она не требует пост-обработки в виде Non-maximum Suppression

DETR и ее модификации на моменты выхода оказывались SOTA-моделями на COCO-датасете, а идеи из этой статьи используются в других работах.

В новом видео Миша Лиз, куратор нашего курса CV Rocket, расскажет об этой архитектуре. Из видео вы узнаете:

- Как устроена архитектура

- Зачем нужно позиционное кодирование

- Что такое "object queries"

- Как сопоставляются предсказанные и размеченные объекты

🎞 Смотрите видео и подписывайтесь на канал: https://youtu.be/SVnbFqXtrQU