(sci)Berloga Всех Наук и Технологий

🚀 @SBERLOGABIG webinar on data science:

👨‍🔬 Никита Бухал "Анализ feature importances - 1"

⌚️ 20 March, Monday, 20.00 (Moscow Time)

❗️Нестандартный день, время

Add to Google Calendar

Есть множество методов определения feature importances - большинство из них не идеальны. Мы начнем серию рассказов об этом вопросе.

1) Даже если фича высока по импортансу - это не гарантирует, что она реальна важна. Эксперимент - добавляем рандомные фичи смотрим их позицию, оказывается часто она достаточно высока.

2) Если фича низка по импортансу - эта НЕ означает, что она не важна. Основная проблема - избыточные фичи - "redundant" - (часто высоко-коррелированные). То есть фича сама по себе неплоха, но другие лучше, и модель выбирает их, а эта идет в конец.

Разные модели работают по разному - LGB, Лассо - обычно выбирают лишь одну фичу, а другие имеют низкий импортанс, а Ридж, Random Forest часто "расплавляют" импортанс - то есть все схожие фичи получают примерно равную долю импортанса - исходный импортанс примерно делится на число элементов группы. Если группа велика - импортанс каждого представителя мал - это создает ложное впечатление, что фича не важна. Эксперимент - добавляем дубликаты к фичам, смотрим что происходит.

В докладе будут рассказаны первые результаты подобных экспериментов. Примеры в ноутбуке.

PS

Схожие вопросы - обсуждались в чате тут: https://t.me/sberlogacompete/3935

Zoom link will be available at

https://t.me/sberlogabig shortly before the start.

Video records of the talks: https://www.youtube.com/c/SciBerloga - subscribe our channel !