FastViT, Apple



После небольшого, но всё же успеха MobileOne, ресёрчеры из Apple продолжили поиск моделей с лучшим балансом между скоростью работы и качеством. Весной 2023 года они представили FastViT — гибридный Computer Vision трансформер, который совмещает дизайн свёрточных сетей и обычного vision трансформера.



В этой статье мы:

- кратко вспомним ViT, первый успешный vision трансформер, а также структуру MobileOne блока, которая будет встречаться в дальнейшем

- познакомимся с новым взглядом на строение трансформеров и узнаем, почему выбор token mixer не ограничивается Self-Attention

- узнаем, как эффективно совместить дизайн свёрточных сетей и трансформера в одной архитектуре

- посмотрим на результаты применения FastViT в downstream задачах



Читайте нашу статью по ссылке: https://www.notion.so/deepschool-pro/FastVit-Apple-9aea903fdac14bdebb049b9b058aabdf?pvs=4