FuseDream: Новая SOTA в генерации картинок по тексту



Напомню, картинки из текста можно генерировать с помощью связки CLIP+GAN, где латентный вектор генератора оптимизируется так, чтобы получившаяся картинка была похожа на текстовое описание с точки зрения CLIP. В этой статье придумали как ЗНАЧИТЕЛЬНО улучшить такую оптимизацию.



Суть идеи:

1. Аугментировать генерируемую картинку и усреднять получающиеся картиночные эмбеддинги CLIP. Это позволяет избежать эффекта «адверсариал атаки» на модель, что улучшает качество генерации.

2. Оверпараметризация — нужно оптимизировать сразу несколько латентных векторов в виде их линейной комбинации (гениально). Это позволяет легко избегать локальных минимумов.



Статья, GitHub