Продолжаем тему интересных соревнований!



Теперь на кеггле нужно решить задачу image-to-text, а именно определить каким был промпт для полученного из StableDiffusion 2.0 изображения. При этом промпт задан не текстом, а его векторным представлением (размерностью 384).



Линк



5 призовых мест по $10k+-, формат решения - отправка кода (то есть нельзя локально на кластере из 1000 GPU посчитать всё самыми тяжелыми моделями). Длительность стандартная, 3 месяца.



Данных нет, а это значит помимо инженерии с мультимодальной (ли?) моделью придется повозиться ещё и со скрапингом данных/сбором базы промптов.



Метрика - усреднённый косинус между отправленными эмбеддингами и реальными.



Но если серьезно, то думаю, что кто-то соскрапит пару лямов генераций с дискорд-серверов, оверфитнется на них 😩😢



UPD: закинул описание своей идеи, как соревку зарешать. Мне почему-то кажется, что это будет SOTA подход в этой задаче с таким таргетом (эмбеддинг). Пишите свои мысли в трэд. Но даже если подход ниоч - мне кажется, что инженерно мысль прикольная, и обучать ничего не надо по сути.