https://jalammar.github.io/illustrated-gpt2/
Опишем, как происходит процесс генерации текста в 💮GPT-2
У предобученной модели уже имеется матрица embeddings, известных слов. Прежде чем передать первый токен, мы должны воспользоваться понятием positional encodings – сигнал, который указывает порядок слов в последовательности для блоков преобразователя
Получается нам известны 2 матрицы 1️⃣ Token Embeddings 2️⃣ Positional Encodings
Первый токен обрабатывается моделью, пропуская его сначала через masked self-attention, затем через Feed Forward Neural Network. Затем токен отправляется в следующий блок. Каждый блок идентичен, но имеет свои веса
немного подробнее о self-attention он запоминает в понимании модели релевантные слова, которые объясняют контекст слова с помощью бальной системы.Подробнее в transformers сообщении
На выходе, когда верхний блок модели создаёт свой выходной вектор (результат собственного внимания, за который следует его нейронная сеть, модель умное этот вертел на token embeddings matrix
На выходе получаем output token probabilities с оценками каждого слова в матрице. Далее мы выбираем сгенерированное слово, учитывая параметры по типу top_k, top_p
Опишем, как происходит процесс генерации текста в 💮GPT-2
У предобученной модели уже имеется матрица embeddings, известных слов. Прежде чем передать первый токен, мы должны воспользоваться понятием positional encodings – сигнал, который указывает порядок слов в последовательности для блоков преобразователя
Получается нам известны 2 матрицы 1️⃣ Token Embeddings 2️⃣ Positional Encodings
Первый токен обрабатывается моделью, пропуская его сначала через masked self-attention, затем через Feed Forward Neural Network. Затем токен отправляется в следующий блок. Каждый блок идентичен, но имеет свои веса
немного подробнее о self-attention он запоминает в понимании модели релевантные слова, которые объясняют контекст слова с помощью бальной системы.
На выходе, когда верхний блок модели создаёт свой выходной вектор (результат собственного внимания, за который следует его нейронная сеть, модель умное этот вертел на token embeddings matrix
На выходе получаем output token probabilities с оценками каждого слова в матрице. Далее мы выбираем сгенерированное слово, учитывая параметры по типу top_k, top_p