Visual Transformer (ViT)



Вот и кульминация серии постов про attention🚀 Разобрали первый трансформер для изображений ViT. Это очень полезный материал, который поможет вам разобраться в трансформерах.



Прочитав нашу большую статью, вы узнаете/вспомните:

- из каких частей состоит ViT и что делает каждая из них;

- почему в ViT перепутаны слои энкодера; *интрига*

- что такое Multi-Head Self-Attention;

- зачем нужен [cls]-токен;

- чем отличается BatchNorm от LayerNorm.



Также каждую часть трансформера мы реализовали в коде, который вы можете повторить, чтобы глубже разобраться в архитектуре.



Читайте и делитесь с коллегами, приятного чтения: https://deepschool-pro.notion.site/ViT-a6854b69af4945a89870cfc497654bf1