
Задача со звездочкой
Недавно попалась супер сложная задача — помочь клиенту (сервис графического дизайна, аналог Canva) разработать алгоритм для улучшения дизайна документа (это может быть слайд, инфографика, изображение карточки товара и т.д.). Над подобной задачей трудятся несколько отделов в Сбере, Adobe, Microsoft, пару десятков старт-апов и теперь … мы
Чего хочется: чтобы алгоритм на входе получал текущий пользовательский док и по кнопке AI Magic превращал его в “красивый” дизайн. Причем не только эстетично расставлял text box-ы по холсту, но добавлял иконки, картинки, справлял и дописывал текст, применял модный шрифт и т.д.
Из огромных плюсов: есть довольно большая база (неск. десятков тысяч) документов, созданных дизайнерами.
Сложности:
- нечеткая постановка бизнес-задачи (а точно нужно работать с контентом? можно ли не заниматься добавлением картинок?)
- непонятно, какими метриками определять “красивый” дизайн
- как вообще построить дизайн ML эксперимента (что это?! классификация / генерация / оптимизация?)
- несколько месяцев клиент экспериментировал, но без особого успеха и результатов — сети не учатся, лосс не сходится
Спустя месяц работ, где мы сейчас:
- сформулировали гипотезу
- придумали пару дизайнов ML решения (пишите идеи в комменты, знатоки)
- смогли таки почистить данные (хитрая кластеризация тех самых профессиональных дизайнов)
- научились рендерить выходы от моделей
- получили первые baseline модели, которые уже сходятся (!) и даже генерируют осмысленные выходы (!!) (пример на фото)
- модель довольно умело расставляет основные изображения и заголовки, но все еще “слепляет” остальные элементы
Далее в планах очередной цикл переосмысления бизнес-задачи (вводные от бизнеса / продукта), генерация новых идей и куча новых экспериментов, как иначе
Недавно попалась супер сложная задача — помочь клиенту (сервис графического дизайна, аналог Canva) разработать алгоритм для улучшения дизайна документа (это может быть слайд, инфографика, изображение карточки товара и т.д.). Над подобной задачей трудятся несколько отделов в Сбере, Adobe, Microsoft, пару десятков старт-апов и теперь … мы
Чего хочется: чтобы алгоритм на входе получал текущий пользовательский док и по кнопке AI Magic превращал его в “красивый” дизайн. Причем не только эстетично расставлял text box-ы по холсту, но добавлял иконки, картинки, справлял и дописывал текст, применял модный шрифт и т.д.
Из огромных плюсов: есть довольно большая база (неск. десятков тысяч) документов, созданных дизайнерами.
Сложности:
- нечеткая постановка бизнес-задачи (а точно нужно работать с контентом? можно ли не заниматься добавлением картинок?)
- непонятно, какими метриками определять “красивый” дизайн
- как вообще построить дизайн ML эксперимента (что это?! классификация / генерация / оптимизация?)
- несколько месяцев клиент экспериментировал, но без особого успеха и результатов — сети не учатся, лосс не сходится
Спустя месяц работ, где мы сейчас:
- сформулировали гипотезу
- придумали пару дизайнов ML решения (пишите идеи в комменты, знатоки)
- смогли таки почистить данные (хитрая кластеризация тех самых профессиональных дизайнов)
- научились рендерить выходы от моделей
- получили первые baseline модели, которые уже сходятся (!) и даже генерируют осмысленные выходы (!!) (пример на фото)
- модель довольно умело расставляет основные изображения и заголовки, но все еще “слепляет” остальные элементы
Далее в планах очередной цикл переосмысления бизнес-задачи (вводные от бизнеса / продукта), генерация новых идей и куча новых экспериментов, как иначе