ChatGPT — чатбот от OpenAI



В основе лежит GPT-3, затюненная аналогичным instructGPT способом.



Сначала авторы разметили синтетические данные для обучения ранжировщика ответов, а затем использовали его как reward модель для RL алгоритма PPO.



Поболтать с ChatGPT можно уже сейчас на их сайте, она даже понимает русский язык (см картинку). Надеюсь, скоро будет больше подробностей, а сама модель будет доступна хотя бы через API.



P.S. А это точно не GPT-4? Слишком уж круто работает.



блог, demo