StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners



Коллеги из #ODS подсветили интересную статью про self-supervised learning.



Идея:

По промтам генерить картинки и генерации в виде позитивных пар из топ-К использовать для дообучения. Да тут включается мой любимый metric/contrastive learning.



В итоге CLIP полученный на обучении с такой процедурой генерации картинок на 20млн пар, оказывается лучше чем classic CLIP, обученный на 50млн.



Но.

Нужно понимать, что модели, которые генерят новых кандидатов, вполне могли видеть те же данные что и классический CLIP. А значит, скорее всего, мы просто аугментируем и дополняем знания изначальной родительской модели через промтинг.



И даже есть статья, которая подтверждает, что увеличение числа негативных и позитивных примеров, которые видят модели, обученные на принципах contrastive/metric learning даёт значимый буст качества.



В исследовании гугла, даже показывается, что увеличение размера ТОЛЬКО негатив кэша уже улучшает "насмотренность" таких моделей и как следствие метрики на downstream. Причём, не обязательно пересчитывать эмбеды кэша, каждую эпоху, достаточно даже раз в N эпох.



В общем, работа подтверждает предыдущие исследования, и даёт возможность использования генеративных моделей для улучшения уже имеющихся прото-моделей.





Источник:

https://t.me/opendatascience/1905