Stability CLIP, новые возможности



Все ещё помните модели, что текст и картинку сравнивают?



Их теперь обучили на 2х миллиардах изображений LAION-2B, в отличие от прошлых 400от миллионов Open AI.



Встречайте, ViT-g/14 224x224 (5.5гб) и ViT-H/14 224x224 (4гб)



github

paper

colab

benchmark

csv табличка с результатами на датасетах