
ChatGPT — чатбот от OpenAI
В основе лежит GPT-3, затюненная аналогичным instructGPT способом.
Сначала авторы разметили синтетические данные для обучения ранжировщика ответов, а затем использовали его как reward модель для RL алгоритма PPO.
Поболтать с ChatGPT можно уже сейчас на их сайте, она даже понимает русский язык (см картинку). Надеюсь, скоро будет больше подробностей, а сама модель будет доступна хотя бы через API.
P.S. А это точно не GPT-4? Слишком уж круто работает.
блог, demo
В основе лежит GPT-3, затюненная аналогичным instructGPT способом.
Сначала авторы разметили синтетические данные для обучения ранжировщика ответов, а затем использовали его как reward модель для RL алгоритма PPO.
Поболтать с ChatGPT можно уже сейчас на их сайте, она даже понимает русский язык (см картинку). Надеюсь, скоро будет больше подробностей, а сама модель будет доступна хотя бы через API.
P.S. А это точно не GPT-4? Слишком уж круто работает.
блог, demo