FastViT: быстрый гибридный Vision Transformer со структурной репараметризацией



FastViT - новое слово в области гибридных архитектур преобразователей и сверточных сетей, обеспечивающее повышенную точность модели и ее эффективность. Главная заслуга FastViT - ислинование RepMixer, инновационного оператора для смешивания токенов, который использует структурную репараметризацию и уменьшает затраты на доступ к памяти, отказываясь от традиционных связей с пропуском.



- FastViT работает на мобильных устройствах в 3,5 раза быстрее CMT при точности классификации ImageNet.

- FastViT значительно превосходит EfficientNet и ConvNeXt с соотношениями скорости 4.9х и 1.9х соответственно.

- Формат FastViT по сравнению с MobileOne при схожей задержке показывает на 4.2% лучшую точность Top-1.

- FastViT демонстрирует отличные результаты в различных задачах, включая классификацию изображений, обнаружение, сегментацию и регрессию 3D-сетки.



Paper link: https://huggingface.co/papers/2303.14189

Code link: https://github.com/apple/ml-fastvit



A detailed unofficial overview of the paper:

https://andlukyane.com/blog/paper-review-fastvit