За последние два года в мире text‑to‑image случились сотни интересных событий. Вот, например:



— Представили simple diffusion. В ней авторы показали, что концептуально можно обучить диффузию сразу генерировать изображения в высоком разрешении без использования дополнительных моделей Super Resolution и вариационных автокодировщиков;



— Инженеры Stability.ai опубликовали две работы про модели SDXL и SDXL-Turbo, которые стали очень популярными. SDXL — первая по-настоящему большая opensource-модель с 3.5 миллиардами параметров. Для сравнения, предыдущие поколения (SDv1.x и SDv2.x) использовали похожую архитектуру с всего 860 и 865 миллионами параметров в денойзере соответственно. В качестве текстовых энкодеров, теперь используют целых две модели семейства CLIP;



— Вышла обновленная версия модели DALL‑E от OpenAI. Она произвела фурор благодаря отличному качеству и интеграцией в ChatGPT, а также графиками желтым по белому с полностью дефолтными настройками matplotlib 😅;



— MidJourney, подвинься. Недавно появилось приложение Ideogram — Instagram* с генеративным контентом. Или Recraft, захватывающий рынок дизайна за счет внедрения канвасов и качественной генерации текста.



Что еще нового произошло за 2 года — можно почитать на Хабре. Лонгрид написали исследователи Yandex Research на основе открытого интенсива Школы анализа данных про развитие диффузионных моделей.



* Деятельность Meta Platforms Inc. по реализации продуктов - социальных сетей Facebook и Instagram на территории РФ запрещена по основаниям осуществления экстремистской деятельности.



ТехноСфера