DLStories

📸🎞 Привет, NÜWA! Прощай, DALL•E!

Что может быть круче, чем DALL•E от OpenAI? Только NÜWA — фото/видео nextgen от Microsoft!

DALL•E это мультимодальный трансформер, способный генерировать изображения из текста, как единый поток токенов. Такое возможно, работая не с пикселями (256х256 / 512х512), а сжатыми репрезентациями, подготовленными dVAE, VQ-VAE или VQ-GAN.

Ресерчеры из Microsoft пошли дальше, и сделали NÜWA, способную работать и с фото и с видео, да ещё и решая сразу 8 задач!

- Text2Image (DALL-E)

- Text2Video !

- Скетч в фото

- Скетч в видео

- Завершение фото

- Завершение видео

- Текстовая манипуляция с фото

- Манипуляция с видео

Основным новшеством стал 3D Nearby Attention (3DNA) механизм, который дал возможность работать сразу с 1D (текст), 2D (фото) и 3D (видео) потоком токенов.

📰 paper 💻 git без кода

p.s.: откапал для вас закрытую ссылку (ей уже 3 недели!!) от Microsoft, сейчас там только 30 просмотров!

🎞 Видео про NUWA от Майков

🤖 На лекцию про DALL-E и NUWA от Мишин Лернинг