Про Gain и может ли он быть отрицательным.

Во всём разобрались. Выше в канале мы обсуждали, почему он не может быть отрицательным в классическом дереве. И это действительно так: в стандартном DecisionTree из sklearn'a нет никаких регуляризаций, которые бы могли на это повлиять.



Теперь про XGBoost. Вот хороший курс по нему, на котором основывалось занятие из прошлого поста: https://youtu.be/OtD8wVaFm6E

В этом видео на 4:17 видно, что мы вводим регуляризацию (с использованием лямбд) в расчёт Similarity. И именно из-за этого мы начинаем получать отрицательные gain'ы.



Таким образом, верный ответ на вопрос "Может ли Information Gain быть отрицательным?" такой: "В классических деревьях без использования регуляризации - нет, не может. Но в более сложных алгоритмах (вроде бустинга) мы в расчёт similarity и gain'а начинаем вводить новые переменные (например лямбду), которые могут сделать его отрицательным"