Image Super-Resolution via Iterative Refinement (by Google)
Теперь моими любимыми диффузионными моделями занялся и Google, на этот раз для super-resolution (SOTA на CelebA-HQ).
Представленная модель называется «Super-Resolution via Repeated Refinement» (SR3). В её основе лежит UNet-based диффузионная модель (тык) с двумя модификациями:
1. К инпуту всегда конкатенируется bicubic up-sampled low-resolution image. Это нужно для кондишнинга на конкретной картинке, чтобы в высоком разрешении генерировалась именно она.
2. Учится не одна модель, а каскад из 3 юнетов для разных разрешений 64→256→1024. Это улучшает качество генерации и сильно упрощает сложность обучения.
P.S. Теперь можно не играть в MinMax игры Ганов и мучиться с их стабилизацией, ведь есть диффизионные модели с явным лоссом для оптимизации! Надеюсь, что в этом году нас ждёт ещё много крутых работ про них 👀
Статья, блог
Теперь моими любимыми диффузионными моделями занялся и Google, на этот раз для super-resolution (SOTA на CelebA-HQ).
Представленная модель называется «Super-Resolution via Repeated Refinement» (SR3). В её основе лежит UNet-based диффузионная модель (тык) с двумя модификациями:
1. К инпуту всегда конкатенируется bicubic up-sampled low-resolution image. Это нужно для кондишнинга на конкретной картинке, чтобы в высоком разрешении генерировалась именно она.
2. Учится не одна модель, а каскад из 3 юнетов для разных разрешений 64→256→1024. Это улучшает качество генерации и сильно упрощает сложность обучения.
P.S. Теперь можно не играть в MinMax игры Ганов и мучиться с их стабилизацией, ведь есть диффизионные модели с явным лоссом для оптимизации! Надеюсь, что в этом году нас ждёт ещё много крутых работ про них 👀
Статья, блог