
ICML День #5: Рассказали про нашу работу
Сегодня мы выступали с постером про SAC-RND. Организаторы немного провафлили рассылку с локальной печатью плакатов и большинство людей тащили тубусы со своими огромными постерами на Гавайи сами (мы — не исключение), либо отправляли FedEx’ом. Ворчания по этому поводу от соседей по постерной сессии было много, да.
В целом всё прошло очень прикольно, вместо запланированных полутора часов я простоял почти два с половиной обясняя какие-то детали работы и отвечая на вопросы, в общей сложности активно вовлеклись человек 20-30 – это хорошие числа.
Для тех кто еще не знаком с нашей работой, вот три вещи которые надо для себя вынести:
🤙️️️️ Random Network Distillation (RND) может быть успешно использован не только для Online RL, но и для Offline RL
😎 RND может заменить ансамбль критиков: это в некоторых случаях ускоряет тренировочный процесс до 20 раз. При этом награда либо остается на уровне, либо даже становится лучше☝️
👉 Оптимизация RND может быть нестабильной, поэтому следует внимательно подобрать механизм слияния состояний и действий в RND. Мы описали разные варианты в нашей работе, так что check it out.
P.S. Если вы вдруг собираетесь когда-то поехать с постером, то всегда готовьтесь к тому, что подойдут как люди, которые вообще ничего не знают про вашу область, так и люди, которые уже прочитали вашу работу и у них есть миллион и один детальный вопрос. К нам подошли авторы работы, чьи результаты мы опровергли, чтобы уточнить, как у нас это получилось (было неловко, учитывая, что там надо было подкрутить глубину сети).
Сегодня мы выступали с постером про SAC-RND. Организаторы немного провафлили рассылку с локальной печатью плакатов и большинство людей тащили тубусы со своими огромными постерами на Гавайи сами (мы — не исключение), либо отправляли FedEx’ом. Ворчания по этому поводу от соседей по постерной сессии было много, да.
В целом всё прошло очень прикольно, вместо запланированных полутора часов я простоял почти два с половиной обясняя какие-то детали работы и отвечая на вопросы, в общей сложности активно вовлеклись человек 20-30 – это хорошие числа.
Для тех кто еще не знаком с нашей работой, вот три вещи которые надо для себя вынести:
🤙️️️️ Random Network Distillation (RND) может быть успешно использован не только для Online RL, но и для Offline RL
😎 RND может заменить ансамбль критиков: это в некоторых случаях ускоряет тренировочный процесс до 20 раз. При этом награда либо остается на уровне, либо даже становится лучше☝️
👉 Оптимизация RND может быть нестабильной, поэтому следует внимательно подобрать механизм слияния состояний и действий в RND. Мы описали разные варианты в нашей работе, так что check it out.
P.S. Если вы вдруг собираетесь когда-то поехать с постером, то всегда готовьтесь к тому, что подойдут как люди, которые вообще ничего не знают про вашу область, так и люди, которые уже прочитали вашу работу и у них есть миллион и один детальный вопрос. К нам подошли авторы работы, чьи результаты мы опровергли, чтобы уточнить, как у нас это получилось (было неловко, учитывая, что там надо было подкрутить глубину сети).