В очередной раз осознала, сколько материалов для изучения у меня накопилось за последнее время. На этот раз – это диффузионки. Хочу опять сделать мини-роудмеп по изучению БАЗЫ base (тем более этот формат всегда находит много отклика)



Так вот, начну просто с блогпостов, которые дают неплохое понимание базовым вещам и хронологии развития событий в этой теме



1. Вот этот пост на habr очень обширный, начинает повествование аж с VAE и GAN-ов, а не сразу бросает в пекло

2. Здесь на medium можно почитать почти ту же информацию, но с иной подачей

3. Так как встретилось понятие Classifier-Free Guidance, на habr есть отличное интуитивное объяснение тому, что происходит

4. Почему бы не почитать поподробнее про интуицию шедулеров (это не единственное, что описано, но выделилось в моем сознании, как самый хороший абзац)

5. Ну и конечно, как без Jay Alammar и описаний с изображениями о работе stable diffusion (самый лучший источник, все в визуализациях и супер понятно)



Дальше, можно пойти в практику и протыкать+почитать курс от diffusers на huggingface



Дальше, для того, чтобы понимать более низкоуровнего (на голом torch уже довольно низкоуровнего😬), можно сходить в 5-часовой видос-гайд, как написать stable diffusion с 0 и к нему репа



Парочку статей, чтобы окунуться в Вайб мохнатых годов вникнуть поглубже:



💛Diffusion Models Beat GANs on Image Synthesis

💛Denoising Diffusion Probabilistic Models

💛Denoising Diffusion Implicit Models

💛CLASSIFIER-FREE DIFFUSION GUIDANCE

💛Improved Denoising Diffusion Probabilistic Models

💛DALL-E 2

💛Stable Diffusion

💛Kandinsky



Если забыла какую-то базу на ваш взгляд, обязательно го в комменты☺️