что-то на DL-ском

Stable Diffusion

Представляет из себя генерацию изображений по текстовому описанию

Рассмотрим из каких компонентов состоит архитектура

1. Encoder (перевод текста в токены) артхитектура ClipText

2. Генератор изображения UNet + Scheduler

3. Декодер изображения Autoencoder Decoder

Теперь подробнее о генирации изображения

Процесс генерации происходит не в один шаг, и каждый шаг выдаёт Новый массив латентных данных. Изначально генерация начинается из так называемого шума

Далее подробнее о том, как работает диффузия