PyMagic

🤖В последние годы о трансформерах говорят все больше, это новая тема, которая появилась относительно недавно, сегодня поговорим о том, чем же они так примечательны и почему важно знать их устройство.

Вы наверняка слышали о таких прорывных архитектурах как CLIP, DALL-E и другие, в их основе лежат трансформеры. Это архитектура предложенная Google Brain в 2017 году, предназначенная для работы с последовательностями.

Архитектура

Ключевые части трансформера это энкодер, декодер и модуль внимания (attention). Именно благодаря модулю внимания, трансформеры и совершили такой прорыв. Модуль внимания присутствует как в энкодере так и в декодере, позволяя "держать в памяти", говоря человеческим языком, все предложение. Кроме того, multi-head attention позволяет улавливать различные связи слов (смысловые, грамматические и т.д.).

Как уже говорилось выше, трансформеры работают с последовательностями. Все началось с задач обработки естественного языка (NLP), затем последовательности научились извлекать и из изображений.

Крупные работы последних лет на основе трансформеров:

BERT - одна из первых статей, показывает на что способны трансформеры,

Bert способен решать задачу ответов на вопросы, задачу генерации текста, классификация тональности текста.

GPT-3 - следующая модель которая "сильнее" в декодере, генерации текстов и понимании контекста.( В то время как у Берта более развит энкодер, и он хорошо предсказывает например тональность текста и отвечает на вопросы. )

VIT - применения трансформера для классификации изображений.

CLIP - объединение NLP и CV.