
Как оптимизм сделал алгоритм для обучения с подкреплением эффективней? 👀
Международный коллектив учёных из России, Франции и Германии с участием исследователя из Института AIRI разработал новый алгоритм обучения с подкреплением (Bayes-UCBVI), основанный на принципе оптимизма.
Bayes-UCBVI действует в парадигме оптимизма, то есть агент перепроверяет ценность действий, которые он совершает редко. Принцип оптимизма приводит к тому, что агент выбирает какое-либо действие по одной из двух причин: либо он мало пробовал это делать, либо он достаточно точно уверен, что оно хорошее. Именно это обеспечивает исследование среды агентом.
Исследователи отмечают, что, несмотря на теоретическую эффективность, принцип оптимизма трудно было использовать для создания практических алгоритмов обучения с подкреплением, которые будут работать для сложных окружений, таких как компьютерные игры, или для управления реальным роботом.
Алгоритм, представленный учеными, уже протестирован на 57 играх Atari 👾
Использование этого алгоритма на практике позволит существенно ускорить процесс обучения искусственного интеллекта.
Полученный результат был представлен на конференции ICML-2022 📄
Международный коллектив учёных из России, Франции и Германии с участием исследователя из Института AIRI разработал новый алгоритм обучения с подкреплением (Bayes-UCBVI), основанный на принципе оптимизма.
Bayes-UCBVI действует в парадигме оптимизма, то есть агент перепроверяет ценность действий, которые он совершает редко. Принцип оптимизма приводит к тому, что агент выбирает какое-либо действие по одной из двух причин: либо он мало пробовал это делать, либо он достаточно точно уверен, что оно хорошее. Именно это обеспечивает исследование среды агентом.
Исследователи отмечают, что, несмотря на теоретическую эффективность, принцип оптимизма трудно было использовать для создания практических алгоритмов обучения с подкреплением, которые будут работать для сложных окружений, таких как компьютерные игры, или для управления реальным роботом.
Алгоритм, представленный учеными, уже протестирован на 57 играх Atari 👾
Использование этого алгоритма на практике позволит существенно ускорить процесс обучения искусственного интеллекта.
Полученный результат был представлен на конференции ICML-2022 📄