GPT + RL = Decision Making



Это гениально! Ребята из гугла показали, как с помощью RL можно научить GPT-2 управлять виртуальным агентом и решать сложные задачи: на видео он выполняет команду «найди и положи две вилки в холодильник».



Идея очень простая: действия агента, его цель и наблюдения кодируются в виде слов, координаты объектов эмбеддятся с помощью MLP и прибавляются к эмбеддингам соответсвующих токенов. Всё это прогоняется через GPT-2 и на основе её аутпутов уже другая сеть предсказывает следующее действие. Обучается всё это на 20k примеров решений VirtualHome при помощи RL и Imitation Learning.



P.S. Есть ещё пара работ про RL + GPT, о которых я писал тут и тут.



Статья, блог, GitHub