Visual Transformer (ViT)
Вот и кульминация серии постов про attention🚀 Разобрали первый трансформер для изображений ViT. Это очень полезный материал, который поможет вам разобраться в трансформерах.
Прочитав нашу большую статью, вы узнаете/вспомните:
- из каких частей состоит ViT и что делает каждая из них;
- почему в ViT перепутаны слои энкодера; *интрига*
- что такое Multi-Head Self-Attention;
- зачем нужен [cls]-токен;
- чем отличается BatchNorm от LayerNorm.
Также каждую часть трансформера мы реализовали в коде, который вы можете повторить, чтобы глубже разобраться в архитектуре.
Читайте и делитесь с коллегами, приятного чтения: https://deepschool-pro.notion.site/ViT-a6854b69af4945a89870cfc497654bf1
Вот и кульминация серии постов про attention🚀 Разобрали первый трансформер для изображений ViT. Это очень полезный материал, который поможет вам разобраться в трансформерах.
Прочитав нашу большую статью, вы узнаете/вспомните:
- из каких частей состоит ViT и что делает каждая из них;
- почему в ViT перепутаны слои энкодера; *интрига*
- что такое Multi-Head Self-Attention;
- зачем нужен [cls]-токен;
- чем отличается BatchNorm от LayerNorm.
Также каждую часть трансформера мы реализовали в коде, который вы можете повторить, чтобы глубже разобраться в архитектуре.
Читайте и делитесь с коллегами, приятного чтения: https://deepschool-pro.notion.site/ViT-a6854b69af4945a89870cfc497654bf1