В очередной раз осознала, сколько материалов для изучения у меня накопилось за последнее время. На этот раз – это диффузионки. Хочу опять сделать мини-роудмеп по изучению БАЗЫ base (тем более этот формат всегда находит много отклика)
Так вот, начну просто с блогпостов, которые дают неплохое понимание базовым вещам и хронологии развития событий в этой теме
1. Вот этот пост на habr очень обширный, начинает повествование аж с VAE и GAN-ов, а не сразу бросает в пекло
2. Здесь на medium можно почитать почти ту же информацию, но с иной подачей
3. Так как встретилось понятие Classifier-Free Guidance, на habr есть отличное интуитивное объяснение тому, что происходит
4. Почему бы не почитать поподробнее про интуицию шедулеров (это не единственное, что описано, но выделилось в моем сознании, как самый хороший абзац)
5. Ну и конечно, как без Jay Alammar и описаний с изображениями о работе stable diffusion (самый лучший источник, все в визуализациях и супер понятно)
Дальше, можно пойти в практику и протыкать+почитать курс от diffusers на huggingface
Дальше, для того, чтобы понимать более низкоуровнего (на голом torch уже довольно низкоуровнего😬 ), можно сходить в 5-часовой видос-гайд, как написать stable diffusion с 0 и к нему репа
Парочку статей, чтобыокунуться в Вайб мохнатых годов вникнуть поглубже:
💛 Diffusion Models Beat GANs on Image Synthesis
💛 Denoising Diffusion Probabilistic Models
💛 Denoising Diffusion Implicit Models
💛 CLASSIFIER-FREE DIFFUSION GUIDANCE
💛 Improved Denoising Diffusion Probabilistic Models
💛 DALL-E 2
💛 Stable Diffusion
💛 Kandinsky
Если забыла какую-то базу на ваш взгляд, обязательно го в комменты☺️
Так вот, начну просто с блогпостов, которые дают неплохое понимание базовым вещам и хронологии развития событий в этой теме
1. Вот этот пост на habr очень обширный, начинает повествование аж с VAE и GAN-ов, а не сразу бросает в пекло
2. Здесь на medium можно почитать почти ту же информацию, но с иной подачей
3. Так как встретилось понятие Classifier-Free Guidance, на habr есть отличное интуитивное объяснение тому, что происходит
4. Почему бы не почитать поподробнее про интуицию шедулеров (это не единственное, что описано, но выделилось в моем сознании, как самый хороший абзац)
5. Ну и конечно, как без Jay Alammar и описаний с изображениями о работе stable diffusion (самый лучший источник, все в визуализациях и супер понятно)
Дальше, можно пойти в практику и протыкать+почитать курс от diffusers на huggingface
Дальше, для того, чтобы понимать более низкоуровнего (на голом torch уже довольно низкоуровнего
Парочку статей, чтобы
Если забыла какую-то базу на ваш взгляд, обязательно го в комменты