Исследователи из Facebook AI Research...

... ладно-ладно, это наша работа. Просто показать, что я не только пиздеть гаразд.



В чем там соль. Есть такая задача Image Captioning, краткое описание картинки алгоритмом. То-есть ты засовываешь фото чашки на столе, а эйай выдает что-то типо "A white mug sits on the table". Если на чашке будет написано "Шрек 2" то алгоритм это никогда не прочитает. И если без информации о Шреке можно пережить, то на картинках с часами/вывесками/постерами/ценниками эта информация может быть очень важной, особенно если учесть, что пользуются такими алгоритмами в основном люди с проблемами зрения. Ну вот и наш алгоритм это решает. Через новые данные и модный мультимодальный (зрение+текст+OCR) трансформер.



Интересно, что 95% работы мы сделали за 2 месяца, а потом еще год полировали, полировали, полировали, полировали (ну вы поняли кого заставляли полировать), чтобы получилось красиво, ведь вроде не шарашкина контора, хуйню нельзя выпускать.