"А чо ето трансформеры в NLP скейлят до сотен миллиардов и даже триллионов параметров, а в CV модельки детского размера?"



Получите: Scaling Vision Transformers to 22 Billion Parameters (всё равно мало, но большой шаг вперед) от Google. Прошлая самая большая моделька была ViT-4B, сейчас на 18 миллиардов весов больше.



> ViT-22B demonstrates the potential for "LLM-like" scaling in vision, and provides key steps towards getting there.



Из важного:

1) MLP слои применяются не после Аттеншена, как в обычных трансформерах, а параллельно (то есть y = MLP(x) + SelfAttention(x) + x)

1.1) При этом появляется оптимизация: перемножение матриц для проекций в SA и первый слой FF фьюзят в одну операцию, и то же делают для выходов (это уже было в Симпсонах в гугловской PaLM). Суммарно эти два пункта увеличивают скорость обучения самой большой модели на 15% без деградации перформанса.

2) LayerNorm для Q и K перед расчётом Attention Scores, для стабильности. Полную архитектуру блока см. на картинке ниже.

3) Патч-сайз 14x14 (кусочки, которые подаются в модель) при общем разрешении изображения 224 x 224. Сходу не увидел, почему не делают больше, чтобы получить качество ещё лучше

4) Как в LLM важен претрен на большом датасете. Google заморочился и обновил внутренний недоступный нам датасет JFT до 4B изображений, и на нем предобучил трансформер. В данных 30к классов, которые проставлены автоматически другой моделью

5) Батч-сайз 65k, кек

6) метрики метрики метрики. Для классификации и ImageNet ниче интересного, там понятно в целом, что сильных приростов прыжковых уже не будет (из-за самих данных). А вот трансфер на новые датасеты...На задаче семантической сегментации модель хорошо работает с маленького количества примеров. Сегментация и без этого может работать с 400-1000 примеров, но тут получается хороший прирост относительно предыдущих моделей - при обучении на 1600 семплов из ADE20k модель дает +2.3% mIoU. Примерно такие же улучшения на работе с видео и в других задачах

7) НО! Как мы знаем, модели часто оверфитятся на текстуры, а не на формы объектов. У челвоека пропорция 96%/4% (шейп/текстура), у моделей 20-30%/70-80%, а у нового трансформера...ViT-22B-384 achieves a previously unseen 87% shape bias / 13% texture bias. То есть модель ээээ начинает "видеть" и "пониматЬ" изображения ближе к тому, как это делает человек. Думаю, результаты подобного нам еще только предстоит изучить в будущем, и с дальнейшим масштабированием моделей

8) из приятного - дистилляция в модельки ViT-L/16 / ViT-B/16 дает сильные улучшения над предыдущими моделями (~+2% accuracy), хотя те были тоже на гигантском JFT обучены



Ткните меня носом, мб я не заметил, но где в статье про "the potential for "LLM-like" scaling in vision". Вроде шаги улучшений минорные, ожидаемые, а каких-то новых возможностей не открывается.