Как бороться с переобучением на примере линейной регрессии?



Есть три основных способа:



✔️Увеличить размер обучающей выборки.

Маленькая выборка снижает обобщающую способность модели, а значит повышает разброс.



✔️Уменьшить количество признаков.

Можно сделать это вручную или через специальный алгоритм. Однако есть риск выбросить нужные признаки.



✔️ Использовать регуляризацию.

Регуляризация позволяет снижать параметр (вес, коэффициент) признака и, таким образом, снижать его значимость.



Для регуляризации линейной регрессии есть несколько вариантов:

▪️Ridge (L2)

Штрафует за слишком большие коэффициенты. Этот штраф представляет собой сумму коэффициентов, возведённых в квадрат.

▪️Lasso (L1)

Для штрафа использует сумму коэффициентов по модулю.

▪️Elastic Net

Использует как L1, так и L2 регуляризацию.



#машинное_обучение