Мои датасотонисты ебашат вообще адовые модели.

Ну такой вот примерно рецепт усредненный, потому что вариаций масса.

Берутся данные, они не сэмплируются, сэмплировать обучающую выборку — это не про моих датасотонистов. Они берут эти данные, вываливают их в сверточную нейронную сеть и начинают оптимизировать её стохастическим градиентным спуском. Добавляют во входной вектор огромное количество взаимосвязей свойств, энкодеров и отдельно обученных ВЛОЖЕНИЙ ЭЛЕМЕНТОВ! для категоральных свойств высокой мощности. Всё это обучается до падения целевой функции почти в ноль. Потом модель валидируется с помощью тестовой выборки. Потом дэйта сайнтисты начинают поиск гиперпараметров, при этом ищут не Нелдером-Мидом, а прямо поиском по сетке в широком диапазоне с малым шагом. Ищут и приговаривают полушепотом ух бля. Во внутреннем облаке емкость заканчивается, а кондиционеры в датацентрах перестают справляться. Иногда мне любезно предлагают какой-нибудь пайплайн запустить, но я отказываюсь. Надо ли говорить какой дичайший пресижен и реколл потом? Business impact такой, что банк операционный день останавливает, потому что для таких цифр на нашем расчетном счету в их СУБД bigdecimal не хватает.