NVIDIA представила новую Text-2-Image модель eDiffi
Было бы странно думать, что NVIDIA останется в стороне от всеобщего ажиотажа вокруг Stable Diffusion, DALL-E 2 и прочих Midjourney. И да, выждав какое-то время, компания выкатила ответочку — собственную диффузионную модель для генерации изображений, получившую имя eDiffi.
Как это работает
Как и прочие диффузионные модели, eDiffi «рождает» картинки из шума. Для этого она использует каскад из трёх отдельных нейронок:
🖍Первая преобразует текст в изображение размером 64х64 пикселей
🖍Вторая увеличивает его до 256х256 пикселей
🖍Третья повышает разрешение до 1024х1024 пикселей
Всё это мы видели уже много раз, но есть и существенное отличие. В большинстве диффузионных моделей одна нейронка занимается шумоподавлением всего распределения шума. Однако в eDiffi денойзинг осуществляется набором из нескольких моделей, каждая из которых вступает в дело на разных этапах процесса.
В NVIDIA эту технологию называют Denoising experts. По утверждению разработчиков, применение «шумоподавляющих экспертов» позволяет значительно повысить качество финального результата.
Также в NVIDIA похвастались, что eDiffi гораздо лучше справляется с надписями на картинках. Для примера создатели сгенерировали изображение щенка в зелёной футболке с надписью «NVIDIA Rocks». Тест провели на трёх моделях:
🖍Stable Diffusion не смогла нанести надпись
🖍DALL-E 2 написала «NIDCKA VIDA»
🖍eDiffi идеально справилась с задачей
Что ещё интересного в eDiffi
Но самое примечательное в презентации NVIDIA — это функция рисования словами (Paint with Words). Новый инструмент развивает идею, реализованную компанией в модели GauGAN несколько лет назад.
Опция даёт возможность самостоятельно выстроить композицию кадра. Для этого нужно выделить отдельные слова или фразы из текстового запроса и отметить на холсте области, где нейросеть должна их отрисовать.
К сожалению, пощупать всё это пока нельзя, поэтому остаётся верить NVIDIA на слово. Но выглядит очень круто. Я бы даже сказала, что пахнет маленькой революцией в генеративном искусстве.
Подробнее на arXiv
Было бы странно думать, что NVIDIA останется в стороне от всеобщего ажиотажа вокруг Stable Diffusion, DALL-E 2 и прочих Midjourney. И да, выждав какое-то время, компания выкатила ответочку — собственную диффузионную модель для генерации изображений, получившую имя eDiffi.
Как это работает
Как и прочие диффузионные модели, eDiffi «рождает» картинки из шума. Для этого она использует каскад из трёх отдельных нейронок:
🖍Первая преобразует текст в изображение размером 64х64 пикселей
🖍Вторая увеличивает его до 256х256 пикселей
🖍Третья повышает разрешение до 1024х1024 пикселей
Всё это мы видели уже много раз, но есть и существенное отличие. В большинстве диффузионных моделей одна нейронка занимается шумоподавлением всего распределения шума. Однако в eDiffi денойзинг осуществляется набором из нескольких моделей, каждая из которых вступает в дело на разных этапах процесса.
В NVIDIA эту технологию называют Denoising experts. По утверждению разработчиков, применение «шумоподавляющих экспертов» позволяет значительно повысить качество финального результата.
Также в NVIDIA похвастались, что eDiffi гораздо лучше справляется с надписями на картинках. Для примера создатели сгенерировали изображение щенка в зелёной футболке с надписью «NVIDIA Rocks». Тест провели на трёх моделях:
🖍Stable Diffusion не смогла нанести надпись
🖍DALL-E 2 написала «NIDCKA VIDA»
🖍eDiffi идеально справилась с задачей
Что ещё интересного в eDiffi
Но самое примечательное в презентации NVIDIA — это функция рисования словами (Paint with Words). Новый инструмент развивает идею, реализованную компанией в модели GauGAN несколько лет назад.
Опция даёт возможность самостоятельно выстроить композицию кадра. Для этого нужно выделить отдельные слова или фразы из текстового запроса и отметить на холсте области, где нейросеть должна их отрисовать.
К сожалению, пощупать всё это пока нельзя, поэтому остаётся верить NVIDIA на слово. Но выглядит очень круто. Я бы даже сказала, что пахнет маленькой революцией в генеративном искусстве.
Подробнее на arXiv