Reinforcement learning, обучение с подкреплением или RL. Давайте поговорим немного более конкретно.



Когда-нибудь дрессировали собаку? Собака что-то делает, и получает вкусняшку или сердитое слово (потому что нельзя бить своих собак), а затем делает выводы. Так и с алгоритмами ML, они производят какое-то действие, влияющее на окружение, а затем получают поощрение/наказание и изменение окружения в соответствии с их действиями.



Использоваться это может для тренировки автопилотов (ударился в виртуальный столб или в виртуальную бабушку — плохо), автономных роботов или подбора архитектуры нейронных сетей. Однако, сам подход имеет несколько ограничений и проблем.



1) Для небольших задач этот подход излишен

2) Окружение должно обладать Марковским свойством (будущее состояние зависит только от текущего)

3) Сам процесс RL занимает много времени и может быть нестабилен



А теперь преисполняемся в познании.



Посмотреть:

https://www.youtube.com/watch?v=Mut_u40Sqz4



Почитать:

https://towardsdatascience.com/reinforcement-learning-101-e24b50e1d292



Посмотреть (видео из статьи):

https://www.youtube.com/watch?v=QilHGSYbjDQ



#искусственный_интеллект