Что происходит, когда в наших данных есть коррелированные фичи?



В случайном лесу, поскольку случайный лес выбирает некоторые объекты для построения каждого дерева, вероятность выбора информации, содержащейся в коррелированных объектах, в два раза выше, чем любая другая информация, содержащаяся в других объектах.



В общем, когда вы добавляете коррелированные функции, это означает, что они линейно содержат одну и ту же информацию, и, следовательно, это снижает надежность вашей модели. Каждый раз, когда вы тренируете свою модель, она может выбирать ту или иную функцию, чтобы «выполнить одну и ту же работу», т. е. объяснить некоторую дисперсию, уменьшить энтропию и т. д.