Библиотека собеса по Data Science | вопросы с собеседований

Как предотвратить переобучение при использовании XGBoost?

Стоит отметить, что XGBoost имеет встроенные механизмы регуляризации, чтобы предотвращать переобучение. Однако вы всё равно можете контролировать параметры, чтобы добиться наилучшего результата.

▪️colsample_bytree — это доля признаков, используемых для обучения. Чем меньше, тем ниже вероятность переобучения.

▪️subsample — доля выборки, используемой для обучения. Значения меньше 1 помогают предотвратить переобучение.

▪️max_depth — глубина дерева. Слишком большая глубина может привести к переобучению.

▪️gamma — минимальное уменьшение потерь, необходимое для дальнейшего разбиения узла. Большие значения препятствуют созданию сложных деревьев.

▪️min_child_weight — минимальная сумма весов наблюдений, необходимая для создания нового узла в дереве. Большие значения помогают предотвратить переобучение.

#машинное_обучение