Что происходит у ChatGPT «под капотом»
Многие думают, что ChatGPT отлично разбирается во всем, что пишет, и еще лучше умеет выдумывать истории. На самом же деле, модель-трансформер предсказывает, какое слово наиболее вероятно должно идти в тексте следующим.
Выпускник Стэнфорда Грант Сандерсон выпустил 30-минутное видео о том, как устроен GPT. Ниже краткий FAQ о механизме подбора слова. Спойлер:не обещаем, что будет просто, но точно проще, чем в учебниках .
🔠 Процесс генерации текста можно описать 3 словами: Предсказание → Добавление → Повтор. Большие языковые модели (LLM) предсказывают следующее слово в тексте, добавляют его к тексту, а затем повторяют операцию.
🔠 На первом этапе модель делит текст на токены: слова, части слов или комбинации символов.
🔠 Что именно означает каждое слово модель определяет по контексту и месту слова во фразе. Для этого используется механизм внимания. При этом токены могут «общаться» друг с другом для уточнения контекста: например, чтобы отличить «модель» ML от «фотомодели». По итогу этого «общения» данные по каждому токену обновляются.
🔠 Следующий этап — модель задает к каждому токену множество вопросов: является ли это существительным, на каком языке оно написано и т.д. За этот этап отвечает многослойный перцептрон.
🔠 После многочисленных повторов этих двух операций появляется список слов, которые, скорее всего, могут следовать в тексте далее. Каждому слову присвоена вероятность, модель выбирает слово с наивысшей вероятностью. После чего трансформер ищет следующее слово.
Многие думают, что ChatGPT отлично разбирается во всем, что пишет, и еще лучше умеет выдумывать истории. На самом же деле, модель-трансформер предсказывает, какое слово наиболее вероятно должно идти в тексте следующим.
Выпускник Стэнфорда Грант Сандерсон выпустил 30-минутное видео о том, как устроен GPT. Ниже краткий FAQ о механизме подбора слова. Спойлер: