Reinforcement learning (обучение с подкреплением)



RL — это область машинного обучения ИИ, где й изучается, как испытуемая система (агент) взаимодействует с окружением (средой) для получения максимального вознаграждения (отклика этой среды, то есть — подкрепления).



RL можно сравнить с дрессировкой пса. Представьте, что вы взяли себе щенка. Чтобы научить его чему-то, вам нужно использовать систему вознаграждений. Если пёс вас слушает — вы даёте ему вкусняшку. Также происходит и с машинным обучением.



Например, посмотрите как программисты из OpenAI, компании, основанной Илоном Маском, показали, как агенты играют в прятки.



Им не давали явных инструкций о том, как играть. После миллионов симуляций агенты научились взаимодействовать с окружающей средой самостоятельно:



- тот, кто прячется, научился строить маленькие форты и баррикады;



- тот, кто ищет, начал использовать пандусы чтобы забираться на стены и находить спрятавшихся.



#обучение #интересное