Градиентное погружение

Stability CLIP, новые возможности

Все ещё помните модели, что текст и картинку сравнивают?

Их теперь обучили на 2х миллиардах изображений LAION-2B, в отличие от прошлых 400от миллионов Open AI.

Встречайте, ViT-g/14 224x224 (5.5гб) и ViT-H/14 224x224 (4гб)

github

paper

colab

benchmark

csv табличка с результатами на датасетах