Мы обещали выложить вам новых балдежей в CORL. А теперь следите за руками!
Во-первых, мы опубликовали source code для нашей недавней статьи про БОЛЬШИЕ батчи aka LB-SAC. Большие батчи позволяют обучать offline RL модели в 3-4 раза быстрее, чем SAC-N.
Во-вторых, @howuhh опубликовал на своем личном github SAC-N переписанный на Jax, который обучается в 10 раз быстрее, чем версия на PyTorch.
В-третьих, CORL в ожидании мерджа LB-SAC. В этой ветке доступна однофайловая имплементация, с которой можно очень легко разобраться в том, как работает метод.
P.S. Домашнее задание подписчикам, которые хотят примкнуть к нашему функциональному движу, но не знают, с чего начать – переписать LB-SAC на Jax и получить 30x ускорение, относительно SAC-N на PyTorch 💨
Во-первых, мы опубликовали source code для нашей недавней статьи про БОЛЬШИЕ батчи aka LB-SAC. Большие батчи позволяют обучать offline RL модели в 3-4 раза быстрее, чем SAC-N.
Во-вторых, @howuhh опубликовал на своем личном github SAC-N переписанный на Jax, который обучается в 10 раз быстрее, чем версия на PyTorch.
В-третьих, CORL в ожидании мерджа LB-SAC. В этой ветке доступна однофайловая имплементация, с которой можно очень легко разобраться в том, как работает метод.
P.S. Домашнее задание подписчикам, которые хотят примкнуть к нашему функциональному движу, но не знают, с чего начать – переписать LB-SAC на Jax и получить 30x ускорение, относительно SAC-N на PyTorch 💨