
🔥BEiT-3: Image as a Foreign Language (by Microsoft)
Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)
Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).
Примечательно, что для обучения использовались только открытые данные.
Статья, GitHub
Представлена новая мультимодальная Foundation модель, которая побила сразу 12 рекордов! (см. картинку)
Секрет успеха прост — нужно токенизировать картинки при помощи VQ-VAE и интерпретировать визуальные токены как текст на иностранном языке (авторы назвали его «Imglish»), а пары картинка-текст превращаются в параллельные предложения. Дальше всё это обучается на куче картинок, текстов и их парах через обычный MLM (как BERT).
Примечательно, что для обучения использовались только открытые данные.
Статья, GitHub