🤖В последние годы о трансформерах говорят все больше, это новая тема, которая появилась относительно недавно, сегодня поговорим о том, чем же они так примечательны и почему важно знать их устройство.
Вы наверняка слышали о таких прорывных архитектурах как CLIP, DALL-E и другие, в их основе лежат трансформеры. Это архитектура предложенная Google Brain в 2017 году, предназначенная для работы с последовательностями.
Архитектура
Ключевые части трансформера это энкодер, декодер и модуль внимания (attention). Именно благодаря модулю внимания, трансформеры и совершили такой прорыв. Модуль внимания присутствует как в энкодере так и в декодере, позволяя "держать в памяти", говоря человеческим языком, все предложение. Кроме того, multi-head attention позволяет улавливать различные связи слов (смысловые, грамматические и т.д.).
Как уже говорилось выше, трансформеры работают с последовательностями. Все началось с задач обработки естественного языка (NLP), затем последовательности научились извлекать и из изображений.
Крупные работы последних лет на основе трансформеров:
BERT - одна из первых статей, показывает на что способны трансформеры,
Bert способен решать задачу ответов на вопросы, задачу генерации текста, классификация тональности текста.
GPT-3 - следующая модель которая "сильнее" в декодере, генерации текстов и понимании контекста.( В то время как у Берта более развит энкодер, и он хорошо предсказывает например тональность текста и отвечает на вопросы. )
VIT - применения трансформера для классификации изображений.
CLIP - объединение NLP и CV.
Вы наверняка слышали о таких прорывных архитектурах как CLIP, DALL-E и другие, в их основе лежат трансформеры. Это архитектура предложенная Google Brain в 2017 году, предназначенная для работы с последовательностями.
Архитектура
Ключевые части трансформера это энкодер, декодер и модуль внимания (attention). Именно благодаря модулю внимания, трансформеры и совершили такой прорыв. Модуль внимания присутствует как в энкодере так и в декодере, позволяя "держать в памяти", говоря человеческим языком, все предложение. Кроме того, multi-head attention позволяет улавливать различные связи слов (смысловые, грамматические и т.д.).
Как уже говорилось выше, трансформеры работают с последовательностями. Все началось с задач обработки естественного языка (NLP), затем последовательности научились извлекать и из изображений.
Крупные работы последних лет на основе трансформеров:
BERT - одна из первых статей, показывает на что способны трансформеры,
Bert способен решать задачу ответов на вопросы, задачу генерации текста, классификация тональности текста.
GPT-3 - следующая модель которая "сильнее" в декодере, генерации текстов и понимании контекста.( В то время как у Берта более развит энкодер, и он хорошо предсказывает например тональность текста и отвечает на вопросы. )
VIT - применения трансформера для классификации изображений.
CLIP - объединение NLP и CV.