Do Vision Transformers See Like Convolutional Neural Networks? (by Google)



В Google Brain попытались разобраться, чем отличается зрение трансформеров от CNN.



Они обучили оба типа моделей на одном и том же датасете, а затем статистически сравнивали активации с помощью Centered Kernel Alignment.



Выводы:

1. Трансформеры извлекают больше глобальной информации из картинки, чем CNN. Они «видят» картинку целиком.

2. Они сначала учат глобальные фичи, и только потом локальные. Из-за этого receptive field растёт почти мгновенно в отличие от CNN (см. картинку).

3. Но для того чтобы выучить локальные фичи, трансформерам нужно очень много обучающих данных.

4. Skip-connections в трансформерах делают больше полезной работы, чем в резнетах.

5. Информация о позиции объекта в трансформерах сохраняется более точно.

6. MLP-Mixer ведёт себя скорее как ViT, чем ResNet.



P.S. Ещё одно подтверждение того, что сильный inductive bias (e.g., конволюции) только мешает нейронкам учиться 🤦‍♂️



Статья