
Там это, Microsoft решили подвинуть DALL-E на пьедестале text2image и еще в 7 задачах.
Встречайте: NUWAще
Говорят, что их детище превзошло DALL-E в задаче текст->изображение, а еще может в скетч->изображение, удаление объектов, дополнение картинки.
Причем не только восстанавливать нижнюю часть, как DALL-E, но и правую, и картинку из нескольких патчей (на эту тему совсем недавно была публикация)
Также может делать все это, но для видео, в том числе предсказывать следующие кадры.
Все благодаря новому attention-механизму - 3D Nearby Attention (3DNA)
Кода нет, поэтому пока верим на слово.
Гит
Публикация
Встречайте: NUWA
Причем не только восстанавливать нижнюю часть, как DALL-E, но и правую, и картинку из нескольких патчей (на эту тему совсем недавно была публикация)
Также может делать все это, но для видео, в том числе предсказывать следующие кадры.
Все благодаря новому attention-механизму - 3D Nearby Attention (3DNA)
Кода нет, поэтому пока верим на слово.
Гит
Публикация