Ученые научили роботов любопытству.
Швейцарские инженеры разработали для робособаки на колесах алгоритм управления, основанный на методе обучения с подкреплением, мотивированным любопытством.
Вместо множества отдельных наград за подзадачи разработчики использовали только одну, которую робособака ANYmal получает за достижение конечной цели.
В итоге робопес сам ищет правильную последовательность действий, и это побуждает его исследовать среду и делать то, что он еще не делал, приобретая новые навыки.
Швейцарские инженеры разработали для робособаки на колесах алгоритм управления, основанный на методе обучения с подкреплением, мотивированным любопытством.
Вместо множества отдельных наград за подзадачи разработчики использовали только одну, которую робособака ANYmal получает за достижение конечной цели.
В итоге робопес сам ищет правильную последовательность действий, и это побуждает его исследовать среду и делать то, что он еще не делал, приобретая новые навыки.