🤖В последние годы о трансформерах говорят все больше, это новая тема, которая появилась относительно недавно, сегодня поговорим о том, чем же они так примечательны и почему важно знать их устройство.



Вы наверняка слышали о таких прорывных архитектурах как CLIP, DALL-E и другие, в их основе лежат трансформеры. Это архитектура предложенная Google Brain в 2017 году, предназначенная для работы с последовательностями.



Архитектура

Ключевые части трансформера это энкодер, декодер и модуль внимания (attention). Именно благодаря модулю внимания, трансформеры и совершили такой прорыв. Модуль внимания присутствует как в энкодере так и в декодере, позволяя "держать в памяти", говоря человеческим языком, все предложение. Кроме того, multi-head attention позволяет улавливать различные связи слов (смысловые, грамматические и т.д.).



Как уже говорилось выше, трансформеры работают с последовательностями. Все началось с задач обработки естественного языка (NLP), затем последовательности научились извлекать и из изображений.





Крупные работы последних лет на основе трансформеров:



BERT - одна из первых статей, показывает на что способны трансформеры,

Bert способен решать задачу ответов на вопросы, задачу генерации текста, классификация тональности текста.



GPT-3 - следующая модель которая "сильнее" в декодере, генерации текстов и понимании контекста.( В то время как у Берта более развит энкодер, и он хорошо предсказывает например тональность текста и отвечает на вопросы. )



VIT - применения трансформера для классификации изображений.



CLIP - объединение NLP и CV.