AbstractDL

Typical sampling: идеальный метод генерации текста

Языковые модели (например GPT) предсказывают распределение вероятностей следующего токена, но способов генерации текста из этих распределений очень много и у всех свои недостатки — зацикленность, скучность и даже «галлюцинации».

Оказалось, что главная проблема всех прежних подходов в том, что они ориентировались на перплексию текста и вероятность токенов, а нужно было на условную энтропию — это следует из информационной теории речи. Новый подход позволяет генерировать гораздо более связный, интересный и «человеческий» текст.

Но самое крутое — этот метод уже интегрирован в transformers! Нужно всего лишь добавить параметр генерации typical_p. Чем ниже этот параметр, тем более knowledgeable будет текст, а чем выше, тем более интересным и непредсказуемым.

Подробнее можно почитать тут.

Статья, GitHub