📸🎞 Привет, NÜWA! Прощай, DALL•E!



Что может быть круче, чем DALL•E от OpenAI? Только NÜWA — фото/видео nextgen от Microsoft!



DALL•E это мультимодальный трансформер, способный генерировать изображения из текста, как единый поток токенов. Такое возможно, работая не с пикселями (256х256 / 512х512), а сжатыми репрезентациями, подготовленными dVAE, VQ-VAE или VQ-GAN.



Ресерчеры из Microsoft пошли дальше, и сделали NÜWA, способную работать и с фото и с видео, да ещё и решая сразу 8 задач!

- Text2Image (DALL-E)

- Text2Video !

- Скетч в фото

- Скетч в видео

- Завершение фото

- Завершение видео

- Текстовая манипуляция с фото

- Манипуляция с видео



Основным новшеством стал 3D Nearby Attention (3DNA) механизм, который дал возможность работать сразу с 1D (текст), 2D (фото) и 3D (видео) потоком токенов.



📰 paper 💻 git без кода



p.s.: откапал для вас закрытую ссылку (ей уже 3 недели!!) от Microsoft, сейчас там только 30 просмотров!

🎞 Видео про NUWA от Майков



🤖 На лекцию про DALL-E и NUWA от Мишин Лернинг