AbstractDL

Image Super-Resolution via Iterative Refinement (by Google)

Теперь моими любимыми диффузионными моделями занялся и Google, на этот раз для super-resolution (SOTA на CelebA-HQ).

Представленная модель называется «Super-Resolution via Repeated Refinement» (SR3). В её основе лежит UNet-based диффузионная модель (тык) с двумя модификациями:

1. К инпуту всегда конкатенируется bicubic up-sampled low-resolution image. Это нужно для кондишнинга на конкретной картинке, чтобы в высоком разрешении генерировалась именно она.

2. Учится не одна модель, а каскад из 3 юнетов для разных разрешений 64→256→1024. Это улучшает качество генерации и сильно упрощает сложность обучения.

P.S. Теперь можно не играть в MinMax игры Ганов и мучиться с их стабилизацией, ведь есть диффизионные модели с явным лоссом для оптимизации! Надеюсь, что в этом году нас ждёт ещё много крутых работ про них 👀

Статья, блог