Новый подход к super-resolution

#paper



Google AI представляет новый подход к улучшению качества изображений — Image Super-Resolution via Iterative Refinement.

Пример того, как это работает — на анимации выше.



Super-resolution с помощью GAN

Улучшение качества изображений — сложная задача и, к тому же, вызывающая социальные споры. Дело в том, что при использовании генеративных нейросетей (ГАНов или VAE) для super-resolution на изображение часто меняются характеристики. Вот пример, когда ГАН, улучшая фото Барака Обамы, сделал его сильно похожим на европейца. Этот пример вызвал большой общественный отклик и обсуждение предвзятости ИИ.



Такое изменение характеристик картинки при super-resolution легко объяснимо. В датасете лиц людей, на которых обучался ГАН, было намного больше лиц людей европеоидной расы. Поэтому ГАН и выучил, что чаще всего на улучшенной картинке должен получаться европеец. Эта проблема несбалансированных датасетов и "предвзятости" ИИ хорошо известна, но, к сожалению, решения ей пока нет.



Super-resolution с помощью диффузионных моделей

Технология, которую использует Google для улучшения изображений основана не на ГАНах. Она основана на диффузионных моделях. Они впервые были представлены в 2015 году и выглядят многообещающе для задач, связанных с генерацией картинок и аудио.



Как это работает:

Перед началом обучения нейросети к изображениям из тренировочного датасета добавляется гауссовский шум раличной интенсивности. Чем интенсивнее шум, тем больше деталей изображения он "размывает", пока изображение не превратится в случайный шум. Далее нейронная сеть обучается восстанавливать исходное изображение из зашумленных картинок.



Не только super-resolution

Видя классный результат работы диффузионной модели на задаче улучшения качества изображений, Google решили пойти дальше: сделать полноценную генерацию новых изображений. И это им тоже удалось! Посмотрите на результаты такой генерации: картинки получаются весьма реалистичны.



Что еще?

Кроме новой модели для super-resolution и генерации изображений Google представила новый вид аугментации. Подробнее читайте в блогпосте и статьях: эта про super-resolution, эта — про генерацию картинок. Также там описаны несколько трюков, которые позволяют сделать обучение генеративной диффузионной сети эффективнее.



Ну что, ждем, когда станет ясно, подвержены ли диффузионные модели проблеме "предвзятости", которая была описана выше. Наверняка подвержены, вопрос только, насколько. А пока — умиляемся фото и читаем статьи =)