На гитхабе появился PyTorсh код для ViT — самого популярного (и эффективного) трансформера для изображений. 🤖



Для тех кто не знает, интересен он тем, что это, по сути, применение текстового алгоритма для визуальной информации, которое разнесло все бенчмарки классификации изображений, даже такой сложный и высококонкурентный ImageNet. За 7 дней — 1.7к звезд. Однозначно стоит обратить внимание.