Может ли робот нарисовать картину

Ребят, я в шоке. OpenAI выпустила сетку, которая генерит картинки по текстовому описанию. И это самое мощное, что я видела в AI за последние полгода. Покажи мне это в 2010 году - я бы не поверила. На прикрепленной к посту картинке - сгенерированная по фразе “An astronaut lounging in a tropical resort in space in vaporwave style.” иллюстрация. Ниже попробую обьяснить, в чем и почему прорыв, и что дальше.



🙈В чем прорыв

Теперь сетка может сочетать текстуры, добавлять на изображение предметы, концепции, настроения, стили, делать вариации оригинального изображения в разном стиле-настроении. Да, такое уже было. Те же OpenAI выпускали DALLE первую версию в январе 2021. Разрешение у DALLE-2 в 4 раза выше, чем у DALLE. Плюс все выглядит заметно более реалистично. И люди, которых просят оценивать результаты от DALLE и DALLE-2 оценивают результаты от DALLE-2 выше



👊Почему прорыв

https://cdn.openai.com/papers/dall-e-2.pdf

Почему такого не получалось раньше? В чем разница DALLE-2 и DALLE? Если хочется глубоко разобраться - как обычно стоит почитать статью. А если вкратце - то авторы скрестили CLIP-эмбеддинги и диффузионные модели. И конечно поигрались с параметрами.

🌴CLIP-эмбеддинги (Contrastive Language–Image Pre-training) эмбеддинги для картинок, текстов, получаются сеткой, которая выпущена в 2021 году OpenAI, и которая отображает тексты в картинки, а карктинки - в тексты. Основная фишка - сетка выучена на огромном количестве текстов и изображений таким образом, чтобы не переучиваться под конкретный домен, как в случае zero-shot у GPT-3. CLIP предварительно обучает эмбедер для изображений и текста, предсказывающий, какие изображения были связаны с какими текстами. Затем эти эмбедеры используются, чтобы превратить CLIP в zero-shot. Авторы конвертируют все классы в текстовые описания, например «фотография собаки», и предсказывают, какое изображения лучшим образом мэтчится с этой подписью.

🌊Diffusion models - новый подход к генерации изображений, обгоняющий по качеству GAN и VAE в ряде задач. Diffusion models искажают обучающие данные, постепенно добавляя гауссовский шум. Это удаляет особенности распределения данных, пока они не станут чистым шумом. Затем сетка обучается обращать процесс постепенного повреждения данных.



💶Что дальше

Потенциально это может поменять рынок дизайна и вообще рынок создания и потребления визуального контента. По сути дизайнеры обдумывают в голове идею визуала, где что находится, в каком стиле. Теперь люди, которым нужен дизайн могут описывать все идеи в тексте, и выбирать, понравившуюся концепцию. Понятно, что текстовый канал не передает всю широту визуала, особенно для людей с богатым художественным воображением (читай - эмбеддинговым пространством). Но это может существенно снизить порог входа в дизайн и очень бюджетно закрыть задачи по созданию контента, иллюстраций и логотипов. Как человек, в свое время закончивший хужожку, испытываю одновременное восхищение и страх. Кроме того на вопрос “Может ли робот нарисовать картину?” теперь можно с чистой совестью отвечать. ДА.