Что такое SMOTE (англ. Synthetic Minority Oversampling Technique) и как он работает?



Это метод искусственного увеличения числа примеров в классах с меньшим числом примеров. Используется для устранения дисбаланса классов, который может повлиять на производительность модели.



Алгоритм SMOTE примерно такой:

▪️Для каждого примера из меньшего класса находятся его k ближайших соседей (в пространстве признаков).

▪️Выбирается один из этих ближайших соседей случайным образом.

▪️Между выбранным примером и его соседом генерируется синтетический пример путём интерполяции. Если говорить подробнее, это выглядит так:

Находят разность d=Xb–Xa, где Xa и Xb — векторы признаков «соседних» примеров a и b. Далее из d путём умножения каждого его элемента на случайное число в интервале (0,1) получают d^. Вектор признаков нового примера вычисляется путём сложения Xa и d^.



#машинное_обучение

#статистика