
🏆 CoCA — новая SOTA на первом месте! Papers With Code обновили свою "рейтинговую таблцу" по ImageNet-1k
Я был в восторге в CLIP и Image Captioning претрейнов (e.g.: SimVLM), восхищался изящностью ViT, верил в направление гибридного обучения, начатого в BLIP.
Но при всем этом, сказать, что я не удивлен первому месту, это ничего не сказать. Казалось, что такой дженерал претрейн должен выстрелить рано или поздно. И это произошло.
91% точности на ImageNet — новый рубеж! И хотя мой друг сказал, что ImageNet — новый MNIST, мы все в восторге от Zero-Shot возможностей CoCa — 86.3%, это невероятно.
p.s.: Посмотрите, какой путь прошло цивильное человечество за каких-то 11 лет! Skyrim'у тоже 11ый год.
👾 Ретроспектива ImageNet Top1:
50% — SIFT+FVs (2011)
63% — AlexNet (2012)
64% — ZFNet (2013)
74% — VGG (2014)
78% — ResNet (2015)
81% — ResNeXt (2016)
82% — NASNET (2017)
85% — ResNeXt 32x48d (2018)
87% — EfficientNet (2019)
90% — EfficientNet L2 (2020)
90.5% — ViT-G (2021)
91% — CoCa / ViT (2022)
✨ ImageNet SOTA
Я был в восторге в CLIP и Image Captioning претрейнов (e.g.: SimVLM), восхищался изящностью ViT, верил в направление гибридного обучения, начатого в BLIP.
Но при всем этом, сказать, что я не удивлен первому месту, это ничего не сказать. Казалось, что такой дженерал претрейн должен выстрелить рано или поздно. И это произошло.
91% точности на ImageNet — новый рубеж! И хотя мой друг сказал, что ImageNet — новый MNIST, мы все в восторге от Zero-Shot возможностей CoCa — 86.3%, это невероятно.
p.s.: Посмотрите, какой путь прошло цивильное человечество за каких-то 11 лет! Skyrim'у тоже 11ый год.
👾 Ретроспектива ImageNet Top1:
50% — SIFT+FVs (2011)
63% — AlexNet (2012)
64% — ZFNet (2013)
74% — VGG (2014)
78% — ResNet (2015)
81% — ResNeXt (2016)
82% — NASNET (2017)
85% — ResNeXt 32x48d (2018)
87% — EfficientNet (2019)
90% — EfficientNet L2 (2020)
90.5% — ViT-G (2021)
91% — CoCa / ViT (2022)
✨ ImageNet SOTA