Как на коэффициенты логистической регрессии повлияет тот факт, что два предиктора сильно коррелируют?
Когда два или более предикторов в модели логистической регрессии сильно коррелируют между собой, это явление называется мультиколлинеарностью. Наличие мультиколлинеарности может приводит к нескольким потенциальным проблемам:
▫️Нестабильность коэффициентов регрессии. Это означает, что небольшие изменения в данных могут привести к значительным изменениям в оценках.
▫️Коэффициенты становятся менее надёжными для интерпретации и предсказания.
Например, если обучить модель, используя сильно коррелированные признаки, не все знаки коэффициентов будут соответствовать бизнес-логике. Так, уменьшение значения признака «остаток долга / сумма выдачи» должно приводить к уменьшению вероятности дефолта. Но из-за мультиколлинеарности коэффициент сменил знак на противоположный, и признак стал говорить об обратном: чем меньше остаётся платить, тем больше вероятность дефолта.
#машинное_обучение
Когда два или более предикторов в модели логистической регрессии сильно коррелируют между собой, это явление называется мультиколлинеарностью. Наличие мультиколлинеарности может приводит к нескольким потенциальным проблемам:
▫️Нестабильность коэффициентов регрессии. Это означает, что небольшие изменения в данных могут привести к значительным изменениям в оценках.
▫️Коэффициенты становятся менее надёжными для интерпретации и предсказания.
Например, если обучить модель, используя сильно коррелированные признаки, не все знаки коэффициентов будут соответствовать бизнес-логике. Так, уменьшение значения признака «остаток долга / сумма выдачи» должно приводить к уменьшению вероятности дефолта. Но из-за мультиколлинеарности коэффициент сменил знак на противоположный, и признак стал говорить об обратном: чем меньше остаётся платить, тем больше вероятность дефолта.
#машинное_обучение