Всем привет! В прошлом январе я публиковал конспект по теории RL, собранный из разных курсов по обучению с подкреплением. Огромное спасибо всем, кто за этот год присылал комментарии, репорты об ошибках и просто читал! В новой версии исправлены все найденные баги, добавлены новые примеры и пояснения, подчищен и доработан текст. Надеюсь, кому-нибудь эта книжка пригодится - возможно, тем, кто ищет способ погрузиться в RL с последовательным изложением всей теории с обоснованиями интуиции и доказательствами, или поглубже разобраться во всех основных RL алгоритмах и собрать общую картину.
https://arxiv.org/abs/2201.09746
https://arxiv.org/abs/2201.09746