Многорукие бандиты
В жизни мы часто сталкиваемся с выбором: например, какое вино купить или в какой ресторан сходить. Хочется попробовать новое, но в то же время не разочароваться.
В этой статье мы разберемся, как находить баланс между исследованием (новыми альтернативами) и эксплуатацией (проверенными вариантами).
А также узнаем:
- что такое action-value function (Q-function)
- почему жадный алгоритм не самое лучшее решение задачи многоруких бандитов
- какие есть методы для баланса исследования и эксплуатации
Читайте новую статью по ссылке: https://deepschool-pro.notion.site/8102543939e84867a64064edff7527c2?pvs=4
В жизни мы часто сталкиваемся с выбором: например, какое вино купить или в какой ресторан сходить. Хочется попробовать новое, но в то же время не разочароваться.
В этой статье мы разберемся, как находить баланс между исследованием (новыми альтернативами) и эксплуатацией (проверенными вариантами).
А также узнаем:
- что такое action-value function (Q-function)
- почему жадный алгоритм не самое лучшее решение задачи многоруких бандитов
- какие есть методы для баланса исследования и эксплуатации
Читайте новую статью по ссылке: https://deepschool-pro.notion.site/8102543939e84867a64064edff7527c2?pvs=4