Bigger, Better, Faster — решают атари за 2 часа чистого игрового времени (не все игры, но большинство, нет, монтезуму не решает), чисто model-free без всяких невоспроизводимых приколов MuZero.



Multi-Step Inverse Models — это вообще одно из главных открытий ICML’я для меня, у ребят получилось очень сильно поднять скоры на проблемах, где присутствуют визуальные дистракторы без мам, пап, контрастивных лоссов и невоспроизводимых бисимуляций — результат супер крутой, думаю еще много чего увидим с ними под капотом.



Human-Timescale Adaptation — крутой результат, показывают, что RL может в ин-контекст и скейлится почти так же как LLM. Но у нас опять случился DeepMind, который не собирается даже релизить среду в которой они тестируют своих агентов.





Было еще много прикольных вещей, все не расписать. Поэтому если у вас есть какие-то конкретные запросы – напишите в комментарии, попробуем на них ответить.