Data Science | Вопросы собесов

🤔

Какой базовый алгоритм чаще всего используется?

В машинном обучении часто используются различные базовые алгоритмы в зависимости от типа задачи и характеристик данных. Однако, некоторые алгоритмы являются особенно популярными и универсальными.

🟠

Линейная регрессия (Linear Regression)

Линейная регрессия используется для задач регрессии, где цель – предсказать непрерывную переменную на основе одной или нескольких независимых переменных. Простота, интерпретируемость и эффективное обучение на больших объемах данных.

from sklearn.linear_model import LinearRegression



# Пример использования линейной регрессии

model = LinearRegression()

model.fit(X_train, y_train)

predictions = model.predict(X_test)

🟠

Логистическая регрессия (Logistic Regression)

Логистическая регрессия используется для задач бинарной классификации. Она оценивает вероятность принадлежности наблюдения к одному из двух классов. Простота, интерпретируемость и эффективность для линейно разделимых классов.

from sklearn.linear_model import LogisticRegression



# Пример использования логистической регрессии

model = LogisticRegression()

model.fit(X_train, y_train)

predictions = model.predict(X_test)

🟠

K-ближайших соседей (K-Nearest Neighbors, KNN)

KNN используется как для классификации, так и для регрессии. Алгоритм находит K ближайших обучающих примеров в пространстве признаков и предсказывает класс (или значение) на основе большинства (или среднего) этих соседей. Простота и отсутствие необходимости в явной фазе обучения.

from sklearn.neighbors import KNeighborsClassifier



# Пример использования K-ближайших соседей

model = KNeighborsClassifier(n_neighbors=5)

model.fit(X_train, y_train)

predictions = model.predict(X_test)

🟠

Решающие деревья (Decision Trees)

Решающие деревья используются как для классификации, так и для регрессии. Дерево строится путем разбиения данных на подмножества на основе значений признаков. Интерпретируемость, способность работать с категориальными и числовыми данными, и выявление важности признаков.

from sklearn.tree import DecisionTreeClassifier



# Пример использования решающего дерева

model = DecisionTreeClassifier()

model.fit(X_train, y_train)

predictions = model.predict(X_test)

🟠

Случайный лес (Random Forest)

Случайный лес состоит из множества решающих деревьев, обученных на различных подвыборках данных. Итоговое предсказание получается путем усреднения предсказаний отдельных деревьев. Высокая точность, устойчивость к переобучению и возможность обработки больших объемов данных.

from sklearn.ensemble import RandomForestClassifier



# Пример использования случайного леса

model = RandomForestClassifier(n_estimators=100)

model.fit(X_train, y_train)

predictions = model.predict(X_test)

🟠

Градиентный бустинг (Gradient Boosting)

Градиентный бустинг создает ансамбль слабых моделей (обычно деревьев), обучаясь последовательно, чтобы уменьшить ошибку предыдущих моделей. Высокая точность, особенно для сложных задач с большими объемами данных.

from sklearn.ensemble import GradientBoostingClassifier



# Пример использования градиентного бустинга

model = GradientBoostingClassifier()

model.fit(X_train, y_train)

predictions = model.predict(X_test)

Ставь 👍 и забирай 📚 Базу знаний