​​Многорукие бандиты



В жизни мы часто сталкиваемся с выбором: например, какое вино купить или в какой ресторан сходить. Хочется попробовать новое, но в то же время не разочароваться.

В этой статье мы разберемся, как находить баланс между исследованием (новыми альтернативами) и эксплуатацией (проверенными вариантами).



А также узнаем:

- что такое action-value function (Q-function)

- почему жадный алгоритм не самое лучшее решение задачи многоруких бандитов

- какие есть методы для баланса исследования и эксплуатации



Читайте новую статью по ссылке: https://deepschool-pro.notion.site/8102543939e84867a64064edff7527c2?pvs=4