📸🎞 Привет, NÜWA! Прощай, DALL•E!
Что может быть круче, чем DALL•E от OpenAI? Только NÜWA — фото/видео nextgen от Microsoft!
DALL•E это мультимодальный трансформер, способный генерировать изображения из текста, как единый поток токенов. Такое возможно, работая не с пикселями (256х256 / 512х512), а сжатыми репрезентациями, подготовленными dVAE, VQ-VAE или VQ-GAN.
Ресерчеры из Microsoft пошли дальше, и сделали NÜWA, способную работать и с фото и с видео, да ещё и решая сразу 8 задач!
- Text2Image (DALL-E)
- Text2Video !
- Скетч в фото
- Скетч в видео
- Завершение фото
- Завершение видео
- Текстовая манипуляция с фото
- Манипуляция с видео
Основным новшеством стал 3D Nearby Attention (3DNA) механизм, который дал возможность работать сразу с 1D (текст), 2D (фото) и 3D (видео) потоком токенов.
📰 paper 💻 git без кода
p.s.: откапал для вас закрытую ссылку (ей уже 3 недели!!) от Microsoft, сейчас там только 30 просмотров!
🎞 Видео про NUWA от Майков
🤖 На лекцию про DALL-E и NUWA от Мишин Лернинг
Что может быть круче, чем DALL•E от OpenAI? Только NÜWA — фото/видео nextgen от Microsoft!
DALL•E это мультимодальный трансформер, способный генерировать изображения из текста, как единый поток токенов. Такое возможно, работая не с пикселями (256х256 / 512х512), а сжатыми репрезентациями, подготовленными dVAE, VQ-VAE или VQ-GAN.
Ресерчеры из Microsoft пошли дальше, и сделали NÜWA, способную работать и с фото и с видео, да ещё и решая сразу 8 задач!
- Text2Image (DALL-E)
- Text2Video !
- Скетч в фото
- Скетч в видео
- Завершение фото
- Завершение видео
- Текстовая манипуляция с фото
- Манипуляция с видео
Основным новшеством стал 3D Nearby Attention (3DNA) механизм, который дал возможность работать сразу с 1D (текст), 2D (фото) и 3D (видео) потоком токенов.
📰 paper 💻 git без кода
p.s.: откапал для вас закрытую ссылку (ей уже 3 недели!!) от Microsoft, сейчас там только 30 просмотров!
🎞 Видео про NUWA от Майков
🤖 На лекцию про DALL-E и NUWA от Мишин Лернинг