GPT + RL = Decision Making
Это гениально! Ребята из гугла показали, как с помощью RL можно научить GPT-2 управлять виртуальным агентом и решать сложные задачи: на видео он выполняет команду «найди и положи две вилки в холодильник».
Идея очень простая: действия агента, его цель и наблюдения кодируются в виде слов, координаты объектов эмбеддятся с помощью MLP и прибавляются к эмбеддингам соответсвующих токенов. Всё это прогоняется через GPT-2 и на основе её аутпутов уже другая сеть предсказывает следующее действие. Обучается всё это на 20k примеров решений VirtualHome при помощи RL и Imitation Learning.
P.S. Есть ещё пара работ про RL + GPT, о которых я писал тут и тут.
Статья, блог, GitHub
Это гениально! Ребята из гугла показали, как с помощью RL можно научить GPT-2 управлять виртуальным агентом и решать сложные задачи: на видео он выполняет команду «найди и положи две вилки в холодильник».
Идея очень простая: действия агента, его цель и наблюдения кодируются в виде слов, координаты объектов эмбеддятся с помощью MLP и прибавляются к эмбеддингам соответсвующих токенов. Всё это прогоняется через GPT-2 и на основе её аутпутов уже другая сеть предсказывает следующее действие. Обучается всё это на 20k примеров решений VirtualHome при помощи RL и Imitation Learning.
P.S. Есть ещё пара работ про RL + GPT, о которых я писал тут и тут.
Статья, блог, GitHub