Multimodal Learning with Transformers: A Survey



Все любят миксы 😁, особенно миксы разных модальностей при обучении сетей, например текст и фото, видео и аудио и т.д.. Из комбинации сигналов разных модальностей зачастую можно получить более богатый информацией сигнал.



Трансформеры как раз хорошо справляются с задачей моделирования кросс-модальных зависимостей.



В этой свежей статье-ревью авторы провели обзор трансформеров для мультимодаьных данных. От базовых принципов, до более сложных моделей для конкретных задач. Довольно полезная папира.



❱❱ PDF



@ai_newz