Stabilizing Transformers for Reinforcement Learning
Emilio Parisotto, H. Francis Song, Jack W. Rae, Razvan Pascanu, Caglar Gulcehre, Siddhant M. Jayakumar, Max Jaderberg, Raphael Lopez Kaufman, Aidan Clark, Seb Noury, Matthew M. Botvinick, Nicolas Heess, Raia Hadsell
CMU, Google, DeepMind
Статья: https://arxiv.org/abs/1910.06764
Обсуждается возможность использования трансформерных архитектур в рамках RL-задач. Известно, что предыдущие попытки давали нестабильные результаты.
Авторы предлагают модифицированную архитектуру под называнием GTrXL (Gated Transformer-XL). Она более всего похожа на Transformer-XL и содержит следующие модификации:
- как и в TrXL, используется относительное позиционирование токенов, что позволяет работать с широким окном;
- как и в модификации TrXL-I, layernorm делается на входе каждого слоя, а не на выходе, а residual connection позволяет его обойти без нормализации — авторы утверждают, что это очень важно в RL для выучивания ранних простых реактивных стратегий, на основании которых далее формируются уже более сложные;
- ключевым отличием является добавление gating-слоя вместо простого сложения в точке примыкания residual connection — здесь они экспериментировали с разными гейтами, победителем вышел GRU-style gating.
При этом показали, что если начальную инициализацию гейта делать близкой к identity map, то скорость обучения резко растёт (опять таки за счёт того, что сначала сразу выучивается простая policy).
Emilio Parisotto, H. Francis Song, Jack W. Rae, Razvan Pascanu, Caglar Gulcehre, Siddhant M. Jayakumar, Max Jaderberg, Raphael Lopez Kaufman, Aidan Clark, Seb Noury, Matthew M. Botvinick, Nicolas Heess, Raia Hadsell
CMU, Google, DeepMind
Статья: https://arxiv.org/abs/1910.06764
Обсуждается возможность использования трансформерных архитектур в рамках RL-задач. Известно, что предыдущие попытки давали нестабильные результаты.
Авторы предлагают модифицированную архитектуру под называнием GTrXL (Gated Transformer-XL). Она более всего похожа на Transformer-XL и содержит следующие модификации:
- как и в TrXL, используется относительное позиционирование токенов, что позволяет работать с широким окном;
- как и в модификации TrXL-I, layernorm делается на входе каждого слоя, а не на выходе, а residual connection позволяет его обойти без нормализации — авторы утверждают, что это очень важно в RL для выучивания ранних простых реактивных стратегий, на основании которых далее формируются уже более сложные;
- ключевым отличием является добавление gating-слоя вместо простого сложения в точке примыкания residual connection — здесь они экспериментировали с разными гейтами, победителем вышел GRU-style gating.
При этом показали, что если начальную инициализацию гейта делать близкой к identity map, то скорость обучения резко растёт (опять таки за счёт того, что сначала сразу выучивается простая policy).