Multi-agent Hierarchical Reinforcement Learning with Dynamic Termination https://arxiv.org/abs/1910.09508