NVIDIA представила новую Text-2-Image модель eDiffi



Было бы странно думать, что NVIDIA останется в стороне от всеобщего ажиотажа вокруг Stable Diffusion, DALL-E 2 и прочих Midjourney. И да, выждав какое-то время, компания выкатила ответочку — собственную диффузионную модель для генерации изображений, получившую имя eDiffi.



Как это работает



Как и прочие диффузионные модели, eDiffi «рождает» картинки из шума. Для этого она использует каскад из трёх отдельных нейронок:



🖍Первая преобразует текст в изображение размером 64х64 пикселей

🖍Вторая увеличивает его до 256х256 пикселей

🖍Третья повышает разрешение до 1024х1024 пикселей



Всё это мы видели уже много раз, но есть и существенное отличие. В большинстве диффузионных моделей одна нейронка занимается шумоподавлением всего распределения шума. Однако в eDiffi денойзинг осуществляется набором из нескольких моделей, каждая из которых вступает в дело на разных этапах процесса.



В NVIDIA эту технологию называют Denoising experts. По утверждению разработчиков, применение «шумоподавляющих экспертов» позволяет значительно повысить качество финального результата.



Также в NVIDIA похвастались, что eDiffi гораздо лучше справляется с надписями на картинках. Для примера создатели сгенерировали изображение щенка в зелёной футболке с надписью «NVIDIA Rocks». Тест провели на трёх моделях:



🖍Stable Diffusion не смогла нанести надпись

🖍DALL-E 2 написала «NIDCKA VIDA»

🖍eDiffi идеально справилась с задачей



Что ещё интересного в eDiffi



Но самое примечательное в презентации NVIDIA — это функция рисования словами (Paint with Words). Новый инструмент развивает идею, реализованную компанией в модели GauGAN несколько лет назад.



Опция даёт возможность самостоятельно выстроить композицию кадра. Для этого нужно выделить отдельные слова или фразы из текстового запроса и отметить на холсте области, где нейросеть должна их отрисовать.



К сожалению, пощупать всё это пока нельзя, поэтому остаётся верить NVIDIA на слово. Но выглядит очень круто. Я бы даже сказала, что пахнет маленькой революцией в генеративном искусстве.



Подробнее на arXiv