DLStories

Там это, Microsoft решили подвинуть DALL-E на пьедестале text2image и еще в 7 задачах.

Встречайте: NUWAще

Говорят, что их детище превзошло DALL-E в задаче текст->изображение, а еще может в скетч->изображение, удаление объектов, дополнение картинки.

Причем не только восстанавливать нижнюю часть, как DALL-E, но и правую, и картинку из нескольких патчей (на эту тему совсем недавно была публикация)

Также может делать все это, но для видео, в том числе предсказывать следующие кадры.

Все благодаря новому attention-механизму - 3D Nearby Attention (3DNA)

Кода нет, поэтому пока верим на слово.

Гит

Публикация