Продолжение про ACT
#1b: Repeat-RNN
Comparing Fixed and Adaptive Computation Time for Recurrent Neural Networks
Daniel Fojo, Víctor Campos, Xavier Giro-i-Nieto
https://arxiv.org/abs/1803.08165
Любопытная работа с ICLR 2018. А что если дело не в динамическом определении, сколько раз прогонять каждый слой, а просто в том, чтобы прогонять каждый слой несколько раз?
Сделали новый бейзлайн под названием Repeat-RNN, который выполняет фиксированное количество шагов (>1) на каждом элементе. Это по сути ablation полноценного ACT. Число повторов здесь является гиперпараметром.
Это также эквивалентно кратному увеличению количества каждого входного элемента с дополнительным флажком про то новый это токен или повторный.
Неожиданно оказалось, что Repeat-RNN научается решать задачи за меньшее число шагов SGD и с меньшим количеством повторов, чем ACT. Получилось, что предложенный baseline не хуже или лучше, чем ACT.
И в ACT, и в Repeat-RNN надо тюнить гиперпараметры, но гиперпараметр в Repeat-RNN более интуитивно понятный.
Открытым остаётся вопрос, почему именно итеративное обновление состояния для каждого токена перед тем, как начать обрабатывать следующий, улучшает способности сеток. То ли это понуждает сети итеративно улучшать оценки фич, то ли по факту увеличенное количество применённых нелинейностей даёт возможность моделировать более сложные функции при том же числе параметров модели.
(продолжение следует)
#1b: Repeat-RNN
Comparing Fixed and Adaptive Computation Time for Recurrent Neural Networks
Daniel Fojo, Víctor Campos, Xavier Giro-i-Nieto
https://arxiv.org/abs/1803.08165
Любопытная работа с ICLR 2018. А что если дело не в динамическом определении, сколько раз прогонять каждый слой, а просто в том, чтобы прогонять каждый слой несколько раз?
Сделали новый бейзлайн под названием Repeat-RNN, который выполняет фиксированное количество шагов (>1) на каждом элементе. Это по сути ablation полноценного ACT. Число повторов здесь является гиперпараметром.
Это также эквивалентно кратному увеличению количества каждого входного элемента с дополнительным флажком про то новый это токен или повторный.
Неожиданно оказалось, что Repeat-RNN научается решать задачи за меньшее число шагов SGD и с меньшим количеством повторов, чем ACT. Получилось, что предложенный baseline не хуже или лучше, чем ACT.
И в ACT, и в Repeat-RNN надо тюнить гиперпараметры, но гиперпараметр в Repeat-RNN более интуитивно понятный.
Открытым остаётся вопрос, почему именно итеративное обновление состояния для каждого токена перед тем, как начать обрабатывать следующий, улучшает способности сеток. То ли это понуждает сети итеративно улучшать оценки фич, то ли по факту увеличенное количество применённых нелинейностей даёт возможность моделировать более сложные функции при том же числе параметров модели.
(продолжение следует)