AbstractDL

ChatGPT — чатбот от OpenAI

В основе лежит GPT-3, затюненная аналогичным instructGPT способом.

Сначала авторы разметили синтетические данные для обучения ранжировщика ответов, а затем использовали его как reward модель для RL алгоритма PPO.

Поболтать с ChatGPT можно уже сейчас на их сайте, она даже понимает русский язык (см картинку). Надеюсь, скоро будет больше подробностей, а сама модель будет доступна хотя бы через API.

P.S. А это точно не GPT-4? Слишком уж круто работает.

блог, demo