Душа Питона

NVIDIA представила новую Text-2-Image модель eDiffi

Было бы странно думать, что NVIDIA останется в стороне от всеобщего ажиотажа вокруг Stable Diffusion, DALL-E 2 и прочих Midjourney. И да, выждав какое-то время, компания выкатила ответочку — собственную диффузионную модель для генерации изображений, получившую имя eDiffi.

Как это работает

Как и прочие диффузионные модели, eDiffi «рождает» картинки из шума. Для этого она использует каскад из трёх отдельных нейронок:

🖍Первая преобразует текст в изображение размером 64х64 пикселей

🖍Вторая увеличивает его до 256х256 пикселей

🖍Третья повышает разрешение до 1024х1024 пикселей

Всё это мы видели уже много раз, но есть и существенное отличие. В большинстве диффузионных моделей одна нейронка занимается шумоподавлением всего распределения шума. Однако в eDiffi денойзинг осуществляется набором из нескольких моделей, каждая из которых вступает в дело на разных этапах процесса.

В NVIDIA эту технологию называют Denoising experts. По утверждению разработчиков, применение «шумоподавляющих экспертов» позволяет значительно повысить качество финального результата.

Также в NVIDIA похвастались, что eDiffi гораздо лучше справляется с надписями на картинках. Для примера создатели сгенерировали изображение щенка в зелёной футболке с надписью «NVIDIA Rocks». Тест провели на трёх моделях:

🖍Stable Diffusion не смогла нанести надпись

🖍DALL-E 2 написала «NIDCKA VIDA»

🖍eDiffi идеально справилась с задачей

Что ещё интересного в eDiffi

Но самое примечательное в презентации NVIDIA — это функция рисования словами (Paint with Words). Новый инструмент развивает идею, реализованную компанией в модели GauGAN несколько лет назад.

Опция даёт возможность самостоятельно выстроить композицию кадра. Для этого нужно выделить отдельные слова или фразы из текстового запроса и отметить на холсте области, где нейросеть должна их отрисовать.

К сожалению, пощупать всё это пока нельзя, поэтому остаётся верить NVIDIA на слово. Но выглядит очень круто. Я бы даже сказала, что пахнет маленькой революцией в генеративном искусстве.

Подробнее на arXiv