На днях прочитал статью Deep Neural Networks and Tabular Data: A Survey



Статья обзорная, пытается описать и понять почему же прекрасный мир глубокого обучения так хорошо себя чувствует в гомогенных данных (картинки, звук, текст) и никак не может победить деревянные методы в гетерогенных



Сначала обсуждают причины



Плохое качество данных
-> много пропущенных значений, выбросов, ошибок и дисбаланс классов. Деревянные модели неплохо умеют с этим работать по дефолту

Отсутствие (неполная) взаимосвязи фичей -> взаимосвязи между фичами в табличках это вам не соседние пиксели, поэтому всякие индуктивные баесы, так популярные в сетках(например свертках) - тут не работают

Зависимость от препроцессинга, особенно для категориальных фичей

Важность одного отдельно взято признака -> например чтобы переклассифицировать картинку обычно требуется изменения региона пикселей, в тоже время для табличных данных иногда достаточно небольшого изменения всего одной фичи, что приводит к совершенно другим результатам. Деревянные модели неплохо справляются с таким, а вот сетки - не очень (некоторые статьи говорят что правильная регуляризация помогает это решить)



После этого ребята делят модели на следующие типы

Encoding/Data Transformations Methods
- когда получаем репрезентацию признаком в каком то виде, например VIME, SuperTML( представляет данные в виде картинок для сверток)

Hybrid - когда пытается соединить классический мл и сетки, например DeepFM, TabNN, DeepGBM

Transformer based - используем механизм attention, например TabNet

Regularisation based - со строгой регуляризацией, например RLN



Затем рассматривают методы генерации табличных данных, в первую очередь для аугментации и imputation данных, во вторую - для privacy, сгенерированных данных сохраняют моменты и особенности распределений но не дают конкретной информации



Последняя часть посвящена explainable machine learning

В конце приводят графики где показывается как деревянные модели рвут сетке везде и во всем и обсуждают как жить дальше



В целом рекомендую