
Исследователи из OpenAI, Калифорнийского университета в Беркли и Университета Макгилла, представили новый подход к мультиагентным настройкам с помощью Multi-Agent Deep Deterministic Policy Gradient. Такой подход, вдохновленный своим одноагентным аналогом DDPG, использует обучение вида «актер-критик» и показывает очень многообещающие результаты.
https://bit.ly/2VO6uFV
https://bit.ly/2VO6uFV