На собесах любят спрашивать, что такое градиентный бустинг и причём здесь градиент.



Градиентный бустинг — это ансамблевый метод, то есть он комбинирует предсказания нескольких базовых моделей. В данном случае эти базовые модели (чаще всего деревья) строятся последовательно, и каждая новая учится исправлять ошибки предыдущих.



Всё начинается с простого предсказания начальной моделью целевой переменной. Затем вычисляется значение функции потерь (loss). Допустим, что предсказание первой модели на 5 больше настоящего значения. Если бы следующая новая модель выдавала ответ -5, то сумма ответов этих двух моделей оказалась бы идеальной. В реальности моделей может быть сколько угодно — строим до тех пор, пока не получим приемлемый результат.



Каждый очередной алгоритм в градиентном бустинге будет обучаться предсказывать отрицательный градиент (или антиградиент) функции потерь на основе предсказания предыдущей модели. Это позволяет обобщить метод на любую дифференцируемую функцию потерь. Конечным результатом будет взвешенная сумма результатов всех моделей.