Нейродвиж

Reinforcement learning (обучение с подкреплением)

RL — это область машинного обучения ИИ, где й изучается, как испытуемая система (агент) взаимодействует с окружением (средой) для получения максимального вознаграждения (отклика этой среды, то есть — подкрепления).

RL можно сравнить с дрессировкой пса. Представьте, что вы взяли себе щенка. Чтобы научить его чему-то, вам нужно использовать систему вознаграждений. Если пёс вас слушает — вы даёте ему вкусняшку. Также происходит и с машинным обучением.

Например, посмотрите как программисты из OpenAI, компании, основанной Илоном Маском, показали, как агенты играют в прятки.

Им не давали явных инструкций о том, как играть. После миллионов симуляций агенты научились взаимодействовать с окружающей средой самостоятельно:

- тот, кто прячется, научился строить маленькие форты и баррикады;

- тот, кто ищет, начал использовать пандусы чтобы забираться на стены и находить спрятавшихся.

#обучение #интересное