🏆 CoCA — новая SOTA на первом месте! Papers With Code обновили свою "рейтинговую таблцу" по ImageNet-1k



Я был в восторге в CLIP и Image Captioning претрейнов (e.g.: SimVLM), восхищался изящностью ViT, верил в направление гибридного обучения, начатого в BLIP.



Но при всем этом, сказать, что я не удивлен первому месту, это ничего не сказать. Казалось, что такой дженерал претрейн должен выстрелить рано или поздно. И это произошло.



91% точности на ImageNet — новый рубеж! И хотя мой друг сказал, что ImageNet — новый MNIST, мы все в восторге от Zero-Shot возможностей CoCa — 86.3%, это невероятно.



p.s.: Посмотрите, какой путь прошло цивильное человечество за каких-то 11 лет! Skyrim'у тоже 11ый год.



👾 Ретроспектива ImageNet Top1:

50% — SIFT+FVs (2011)

63% — AlexNet (2012)

64% — ZFNet (2013)

74% — VGG (2014)

78% — ResNet (2015)

81% — ResNeXt (2016)

82% — NASNET (2017)

85% — ResNeXt 32x48d (2018)

87% — EfficientNet (2019)

90% — EfficientNet L2 (2020)

90.5% — ViT-G (2021)

91% — CoCa / ViT (2022)



ImageNet SOTA