Reinforcement learning, обучение с подкреплением или RL. Давайте поговорим немного более конкретно.
Когда-нибудь дрессировали собаку? Собака что-то делает, и получает вкусняшку или сердитое слово (потому что нельзя бить своих собак), а затем делает выводы. Так и с алгоритмами ML, они производят какое-то действие, влияющее на окружение, а затем получают поощрение/наказание и изменение окружения в соответствии с их действиями.
Использоваться это может для тренировки автопилотов (ударился в виртуальный столб или в виртуальную бабушку — плохо), автономных роботов или подбора архитектуры нейронных сетей. Однако, сам подход имеет несколько ограничений и проблем.
1) Для небольших задач этот подход излишен
2) Окружение должно обладать Марковским свойством (будущее состояние зависит только от текущего)
3) Сам процесс RL занимает много времени и может быть нестабилен
А теперь преисполняемся в познании.
Посмотреть:
https://www.youtube.com/watch?v=Mut_u40Sqz4
Почитать:
https://towardsdatascience.com/reinforcement-learning-101-e24b50e1d292
Посмотреть (видео из статьи):
https://www.youtube.com/watch?v=QilHGSYbjDQ
#искусственный_интеллект
Когда-нибудь дрессировали собаку? Собака что-то делает, и получает вкусняшку или сердитое слово (потому что нельзя бить своих собак), а затем делает выводы. Так и с алгоритмами ML, они производят какое-то действие, влияющее на окружение, а затем получают поощрение/наказание и изменение окружения в соответствии с их действиями.
Использоваться это может для тренировки автопилотов (ударился в виртуальный столб или в виртуальную бабушку — плохо), автономных роботов или подбора архитектуры нейронных сетей. Однако, сам подход имеет несколько ограничений и проблем.
1) Для небольших задач этот подход излишен
2) Окружение должно обладать Марковским свойством (будущее состояние зависит только от текущего)
3) Сам процесс RL занимает много времени и может быть нестабилен
А теперь преисполняемся в познании.
Посмотреть:
https://www.youtube.com/watch?v=Mut_u40Sqz4
Почитать:
https://towardsdatascience.com/reinforcement-learning-101-e24b50e1d292
Посмотреть (видео из статьи):
https://www.youtube.com/watch?v=QilHGSYbjDQ
#искусственный_интеллект