Stable Diffusion



Представляет из себя генерацию изображений по текстовому описанию



Рассмотрим из каких компонентов состоит архитектура

1. Encoder (перевод текста в токены) артхитектура ClipText

2. Генератор изображения UNet + Scheduler

3. Декодер изображения Autoencoder Decoder



Теперь подробнее о генирации изображения



Процесс генерации происходит не в один шаг, и каждый шаг выдаёт Новый массив латентных данных. Изначально генерация начинается из так называемого шума



Далее подробнее о том, как работает диффузия