DeepSchool

Диффузия на трансформерах

До недавнего времени самые популярные диффузионные модели имели архитектуру UNet (например, всеми любимый Stable Diffusion). В феврале 2024 года OpenAI написали про свою видео-диффузию SORA, а затем и Stability анонсировали StableDiffusion3, где основной архитектурой уже выступил трансформер. Оказывается, это совсем не первый случай работы диффузионной модели на трансформере.

В нашем обзоре мы:

- вспомним, что такое Vision Transformer

- разберём несколько статей, где применили эту архитектуру для диффузионной генерации

- рассмотрим результаты улучшения качества генерации с помощью такого подхода

Читайте новую статью по ссылке: https://www.notion.so/deepschool-pro/187d749559ae4717a13f0cc8c708ced2?pvs=4