Reinforcement learning (обучение с подкреплением)
RL — это область машинного обучения ИИ, где й изучается, как испытуемая система (агент) взаимодействует с окружением (средой) для получения максимального вознаграждения (отклика этой среды, то есть — подкрепления).
RL можно сравнить с дрессировкой пса. Представьте, что вы взяли себе щенка. Чтобы научить его чему-то, вам нужно использовать систему вознаграждений. Если пёс вас слушает — вы даёте ему вкусняшку. Также происходит и с машинным обучением.
Например, посмотрите как программисты из OpenAI, компании, основанной Илоном Маском, показали, как агенты играют в прятки.
Им не давали явных инструкций о том, как играть. После миллионов симуляций агенты научились взаимодействовать с окружающей средой самостоятельно:
- тот, кто прячется, научился строить маленькие форты и баррикады;
- тот, кто ищет, начал использовать пандусы чтобы забираться на стены и находить спрятавшихся.
#обучение #интересное
RL — это область машинного обучения ИИ, где й изучается, как испытуемая система (агент) взаимодействует с окружением (средой) для получения максимального вознаграждения (отклика этой среды, то есть — подкрепления).
RL можно сравнить с дрессировкой пса. Представьте, что вы взяли себе щенка. Чтобы научить его чему-то, вам нужно использовать систему вознаграждений. Если пёс вас слушает — вы даёте ему вкусняшку. Также происходит и с машинным обучением.
Например, посмотрите как программисты из OpenAI, компании, основанной Илоном Маском, показали, как агенты играют в прятки.
Им не давали явных инструкций о том, как играть. После миллионов симуляций агенты научились взаимодействовать с окружающей средой самостоятельно:
- тот, кто прячется, научился строить маленькие форты и баррикады;
- тот, кто ищет, начал использовать пандусы чтобы забираться на стены и находить спрятавшихся.
#обучение #интересное