Как определить процент потерянной дисперсии ?

Спросят с вероятностью 14%



Процент потерянной дисперсии
— это показатель, который используется для оценки того, сколько информации теряется при уменьшении размерности данных или при аппроксимации модели. Этот показатель особенно важен в методах, таких как главные компоненты (PCA) и других техниках уменьшения размерности. Рассмотрим процесс определения процента потерянной дисперсии на примере PCA.



Пример с PCA (Principal Component Analysis)



Это метод уменьшения размерности, который ищет направления (главные компоненты) в данных, по которым вариативность (дисперсия) максимальна. При его использовании мы можем выразить дисперсию исходных данных через сумму дисперсий по каждой главной компоненте.



Шаги для определения потерянной дисперсии:



1⃣Вычисление дисперсий по каждой компоненте:

Примените PCA к вашим данным и получите дисперсии, объяснённые каждой из главных компонент. Эти дисперсии часто называются "собственными значениями" (eigenvalues) ковариационной матрицы данных.



2⃣Расчёт общей дисперсии:

Сложите дисперсии всех главных компонент (сумма всех собственных значений), чтобы получить общую дисперсию исходных данных.



3⃣Расчёт сохранённой дисперсии:

Если вы сохраняете только первые k главных компонент, сложите дисперсии только этих компонент. Это даст вам величину дисперсии, которая сохраняется после уменьшения размерности.



4⃣Определение потерянной дисперсии:

Вычтите сохранённую дисперсию из общей дисперсии исходных данных, чтобы найти потерянную дисперсию.

Для получения процента потерянной дисперсии разделите потерянную дисперсию на общую дисперсию и умножьте результат на 100%.



Пример расчёта:




Пусть после применения PCA мы имеем собственные значения (дисперсии по компонентам) следующим образом: \[3, 2, 1\]. Общая дисперсия будет \(3 + 2 + 1 = 6\).



Если мы сохраняем только первые две компоненты (с дисперсиями 3 и 2), сохранённая дисперсия будет \(3 + 2 = 5\).



Таким образом, потерянная дисперсия составит \(6 - 5 = 1\), и процент потерянной дисперсии равен \((1 / 6) \times 100\% \approx 16.67\%\).



Этот расчёт помогает понять, насколько большая часть информации теряется при уменьшении размерности данных, и может служить одним из критериев для выбора количества компонент в PCA.



👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент



🔐 База собесов | 🔐 База тестовых