Я чуть-чуть пропала отсюда по ряду причин, но за это время успела сходить в @msu_ai_channel в качестве приглашенного лектора. Было очень приятно для активной аудитории студентов и преподавателей провести лекцию в формате диалога + семинар по созданию чатботиков с распараллеливанием на несколько карт ❤️



После лекции конечно же были приятные разговоры про любимый ML и вот какой вопрос после лекции натолкнул на написание поста📝. Есть такое понятие, как мультимодальные архитектуры (например использование текста и картинок в задаче). Можно долго обсуждать каждую из них, но мы вспомнили устройство BLIP и особенность за счет которой работает архитектура – добавление cross attention.



Если затронуть часть Multimodal mixture of Encoder-Decoder (MED), сразу же на картинке (тык во вложения🥁) виднеется 3 составляющие – 1️⃣часть кодирования картинки и текста (по сути представляет из себя CLIP от OpenAI, а еще по сути можно сказать, что представляет от из себя sentence-transformer, только один из энкодеров картиночный) 2️⃣часть энкодера, основанная на изображении с помощью которой можно классифицировать негативная пара текст-изображение или позитивная. А вот основывается оно на изображении как раз за счет cross attention (берем матрицы внимания с картинки, используем их на обработке текста) 3️⃣декодеровщик, основанный на картинке для генерации текста



Так вот, обсуждение велось на счет встраивания разных частей архитектуры (эмбендинги, матрицы внимания и тд) в области предназначенные для них, но являющиеся другой архитектурой, подобно механизму cross attention. Конечно же так можно делать не только в мультимодальных архитектурах, но и в классическом NLP. После того, как мы вспомнили эксперименты коллеги из SberDevices по использованию эмбендиннгов от LABSE (мультиязычный sentence трансформер) при генерации текста с GPT, вопрос был задан следующий «а как называется такой подход». И кажется, что сам подход никак не называется, это чистые эксперименты, иногда они приводят к успеху при evaluate, а иногда нет



Главное, что надо помнить – не надо боятся экспериментировать. Многовероятно, что на специфичных данных обычный tf-idf может лучше справиться с представлением эмбедингов, чем слой в трансформере. Берем и заменяем его с помощью нескольких строчек кода.



Предлагаю посмотреть репозиторий автора экспериментов, чтобы понять на примере, как такое делать👼