Многие хотят знать, что такое GPT? Так вот, Generative Pre-trained Transformer - тип архитектуры нейросети основан на трансформере. Статья How GPT3 Works Джея Аламмара — прекрасное высокоуровневое введение в GPT, которое вкратце можно изложить так:



Generative - генерирует текст.

Pre-trained - обучается на множестве текстов из книг, Интернета и так далее

Transformer - это нейронная сеть, содержащая в себе только декодирующий трансформер.



Большие языковые модели (Large Language Model, LLM) наподобие GPT-3 компании OpenAI, LaMDA компании Google и Command XLarge компании Cohere по своему строению являются всего лишь GPT. Особенными их делает то, что они:

1) очень большие (миллиарды параметров)

2) обучены на множестве данных (сотни гигабайтов текста).



Если не вдаваться в подробности, архитектура GPT состоит из трёх частей:

- Текстовые + позиционные эмбеддинги;

- Стек декодера трансформера;

- Этап проецирования в словарь.