R77 AI | Кейсы в ИИ (от выпускников МФТИ)

Задача со звездочкой

Недавно попалась супер сложная задача — помочь клиенту (сервис графического дизайна, аналог Canva) разработать алгоритм для улучшения дизайна документа (это может быть слайд, инфографика, изображение карточки товара и т.д.). Над подобной задачей трудятся несколько отделов в Сбере, Adobe, Microsoft, пару десятков старт-апов и теперь … мы

Чего хочется: чтобы алгоритм на входе получал текущий пользовательский док и по кнопке AI Magic превращал его в “красивый” дизайн. Причем не только эстетично расставлял text box-ы по холсту, но добавлял иконки, картинки, справлял и дописывал текст, применял модный шрифт и т.д.

Из огромных плюсов: есть довольно большая база (неск. десятков тысяч) документов, созданных дизайнерами.

Сложности:

- нечеткая постановка бизнес-задачи (а точно нужно работать с контентом? можно ли не заниматься добавлением картинок?)

- непонятно, какими метриками определять “красивый” дизайн

- как вообще построить дизайн ML эксперимента (что это?! классификация / генерация / оптимизация?)

- несколько месяцев клиент экспериментировал, но без особого успеха и результатов — сети не учатся, лосс не сходится

Спустя месяц работ, где мы сейчас:

- сформулировали гипотезу

- придумали пару дизайнов ML решения (пишите идеи в комменты, знатоки)

- смогли таки почистить данные (хитрая кластеризация тех самых профессиональных дизайнов)

- научились рендерить выходы от моделей

- получили первые baseline модели, которые уже сходятся (!) и даже генерируют осмысленные выходы (!!) (пример на фото)

- модель довольно умело расставляет основные изображения и заголовки, но все еще “слепляет” остальные элементы

Далее в планах очередной цикл переосмысления бизнес-задачи (вводные от бизнеса / продукта), генерация новых идей и куча новых экспериментов, как иначе