Многие хотят знать, что такое GPT? Так вот, Generative Pre-trained Transformer - тип архитектуры нейросети основан на трансформере. Статья How GPT3 Works Джея Аламмара — прекрасное высокоуровневое введение в GPT, которое вкратце можно изложить так:
Generative - генерирует текст.
Pre-trained - обучается на множестве текстов из книг, Интернета и так далее
Transformer - это нейронная сеть, содержащая в себе только декодирующий трансформер.
Большие языковые модели (Large Language Model, LLM) наподобие GPT-3 компании OpenAI, LaMDA компании Google и Command XLarge компании Cohere по своему строению являются всего лишь GPT. Особенными их делает то, что они:
1) очень большие (миллиарды параметров)
2) обучены на множестве данных (сотни гигабайтов текста).
Если не вдаваться в подробности, архитектура GPT состоит из трёх частей:
- Текстовые + позиционные эмбеддинги;
- Стек декодера трансформера;
- Этап проецирования в словарь.
Generative - генерирует текст.
Pre-trained - обучается на множестве текстов из книг, Интернета и так далее
Transformer - это нейронная сеть, содержащая в себе только декодирующий трансформер.
Большие языковые модели (Large Language Model, LLM) наподобие GPT-3 компании OpenAI, LaMDA компании Google и Command XLarge компании Cohere по своему строению являются всего лишь GPT. Особенными их делает то, что они:
1) очень большие (миллиарды параметров)
2) обучены на множестве данных (сотни гигабайтов текста).
Если не вдаваться в подробности, архитектура GPT состоит из трёх частей:
- Текстовые + позиционные эмбеддинги;
- Стек декодера трансформера;
- Этап проецирования в словарь.