Wikipedia-based Image Text Datasets (by Google)



Представлены два крупнейших чистых мультимодальных датасета: WIT и WikiWeb2M — они содержат полные страницы википедии со всеми картинками, структурированным текстом и метадатой (37M изображений и 1.8М страниц).



Они идеально подходят для обучения таких штук как Flamingo или Fromage, а также отлично сочетаются с графами знаний.



Статья, WIT, WikiWeb2M