
#dataset #emnlp2022
🔺 Crossmodal-3600
Смотрю тут статьи с прошедшего EMNLP и наткнулся на релиз мультимодального датасета от Google. Это 3600 картинок с подписями (ручная разметка) на 36 языках. Подписей очень много — 261 375, в среднем по 2 аннотации на каждом языке для каждой картинки.
〰️ Языки
Взяли 31 распространенный язык + 5 малоресурсных (но с большим числом говорящих). Вот список:
👉 Paper | Скачать | Поиск по датасету
🔺 Crossmodal-3600
Смотрю тут статьи с прошедшего EMNLP и наткнулся на релиз мультимодального датасета от Google. Это 3600 картинок с подписями (ручная разметка) на 36 языках. Подписей очень много — 261 375, в среднем по 2 аннотации на каждом языке для каждой картинки.
〰️ Языки
Взяли 31 распространенный язык + 5 малоресурсных (но с большим числом говорящих). Вот список:
Arabic, Bengali, Chinese, Croatian, Cusco, Quechua, Czech, Danish, Dutch, English, Filipino, Finnish, French, German, Greek, Hebrew, Hindi, Hungarian, Indonesian, Italian, Japanese, Korean, Maori, Norwegian, Persian, Polish, Portuguese, Romanian, Russian, Spanish, Swahili, Swedish, Telugu, Thai, Turkish, Ukrainian, VietnameseИспользуют как бенчмарк для своих мультиязычных моделей типа image captioning и image retrieval. Заявляют, что сильно коррелирует с человеческой оценкой.
👉 Paper | Скачать | Поиск по датасету