что-то на DL-ском

Классический мл больше не будет прежним, или как Яндекс сами запускают вместо градиентного бустинга в каждый дом млщика –трансформер 😮

Наверняка многие экспериментировали при анализе табличных данных с помощью трансформера, а потом ходили в непонятках, почему же все таки CatBoost срабатывает лучше, так вот, теперь это в прошлом. Появился TabR (retrieval для табличных данных), который на бенчмарках бьет град бустинг (логично, иначе статьи бы не было)

🤨

Итак, поверхностно весь секрет в том, что ребята не просто натравливают retrieval, а [энкодят –> на каждую фичу подбирают ближайшего соседа по симилярити –> конкатят с исходным энкодингом –> делают предикт] (см вложения) ~~все, расходимся, чуваки по-умному заюзали идею~~

Конечно, там очень много деталий в ресерче, про которые хотелось бы упомянуть. (Во вложениях таблица с каждым пунктом, и что он дал на eval)

А) В value модуль аттеншена добавили таргет labels

B) Эмперически доказали, что тут расстояние симилярити надо измерять L2 расстоянием, и отказались от query матрицы соответственно

C) вместо KNN для ближайших соседей взяли DNNR, который содержит поправочный член, которые по сути является производной

D) применили cross attention и убрали скейлинг на размерность матрицы K в формуле внимания

Метрики на бенче GBDT во вложениях

🖥

код