🔥BEiT-3: Image as a Foreign Language (by Microsoft)



Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)



Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).



Примечательно, что для обучения использовались только открытые данные.



Статья, GitHub