Всё, что вы хотели знать о Kandinsky 2.0 (или не хотели, но вам всё равно придётся узнать)



Недавно спрашивала у вас, что больше всего понравилось на AIJ. Немало голосов вы отдали за свежую диффузионную сетку Kandinsky 2.0 (но и про других лидеров я вам расскажу, как обещала). Что ж, пришло время отдавать «долги».



Я задала несколько вопросов Андрею Кузнецову — исполнительному директору по исследованию данных в Sber AI (кстати он ведет личный ламповый тг-канал про ИИ). Он разложил по полочкам всё, о чем не рассказали на презентации. Но предупреждаю — здесь будет много технических подробностей.



Чем Kandinsky 2.0 отличается от других диффузионных моделей типа Midjourney (MJ), Stable Diffusion (SD) и DALL-E 2?



А. Кузнецов: Kandinsky 2.0 основан на архитектуре латентной диффузии, что в основе своей схоже с архитектурой SD. Архитектура MJ неизвестна, а DALL-E 2 выполняет диффузию в пространстве пикселей, то есть картинка генерируется сразу.



Латентная же диффузия генерирует изображение в латентном пространстве, после чего следует декодирование и формирование изображения как такового. Особенность нашей архитектуры в том, что на этапе формирования текстового эмбеддинга мы используем два мультиязычных текстовых энкодера — mT5 Small и XMLR-clip



Какие датасеты использовались для обучения?



А. Кузнецов: Мы использовали такие датасеты как LAION-5B, ConceptualCaptions, датасет, собранный для обучения авторегрессионной модели Kandinsky, и другие данные из открытых источников.



Чем Kandinsky 2.0 отличается от Kandinsky?



А. Кузнецов: В основе Kandinsky 2.0 принципиально другая архитектура генерации изображений — диффузионная. В основе модели Kandinsky лежит авторегрессионный подход, то есть генерация изображения выполняется по токенам или фрагментам последовательно.



Я немного потестила модель и заметила, что в некоторых задачах Kandinsky 2.0 пока не очень, например, людей рисует неважно. С чем это может быть связано?



А. Кузнецов: Это связано с промежуточным представлением изображений, которые генерируются в процессе работы модели (то есть это отражение несовершенства архитектуры энкодера/декодера VQGAN), а также размеров языковых моделей, которые используются на первом этапе при построении текстовых эмбеддингов (суммарное число параметров в обоих языковых энкодерах — всего 700 млн).



Зачем вообще нужны text2image модели? Это просто демонстрация технологии, или их можно будет как-то монетизировать в будущем?



А. Кузнецов: бизнес-приложения появляются и будут появляться для решения задач дизайна различных объектов, персонализации пользовательского контента, а также, например, для восстановления визуальных образов утраченных или поврежденных артефактов.



Пригодятся они и при создании промышленных образцов различных изделий, создания новых датасетов высококачественных синтезированных изображений для проведения исследований в тех областях, где присутствует острая нехватка данных, и т.д.



P.S. Канал Андрея про ИИ, если вы пропустили..