Как определить процент потерянной дисперсии ?
Спросят с вероятностью 14%
Процент потерянной дисперсии — это показатель, который используется для оценки того, сколько информации теряется при уменьшении размерности данных или при аппроксимации модели. Этот показатель особенно важен в методах, таких как главные компоненты (PCA) и других техниках уменьшения размерности. Рассмотрим процесс определения процента потерянной дисперсии на примере PCA.
Пример с PCA (Principal Component Analysis)
Это метод уменьшения размерности, который ищет направления (главные компоненты) в данных, по которым вариативность (дисперсия) максимальна. При его использовании мы можем выразить дисперсию исходных данных через сумму дисперсий по каждой главной компоненте.
Шаги для определения потерянной дисперсии:
1⃣Вычисление дисперсий по каждой компоненте:
✅Примените PCA к вашим данным и получите дисперсии, объяснённые каждой из главных компонент. Эти дисперсии часто называются "собственными значениями" (eigenvalues) ковариационной матрицы данных.
2⃣Расчёт общей дисперсии:
✅Сложите дисперсии всех главных компонент (сумма всех собственных значений), чтобы получить общую дисперсию исходных данных.
3⃣Расчёт сохранённой дисперсии:
✅Если вы сохраняете только первые k главных компонент, сложите дисперсии только этих компонент. Это даст вам величину дисперсии, которая сохраняется после уменьшения размерности.
4⃣Определение потерянной дисперсии:
✅Вычтите сохранённую дисперсию из общей дисперсии исходных данных, чтобы найти потерянную дисперсию.
✅Для получения процента потерянной дисперсии разделите потерянную дисперсию на общую дисперсию и умножьте результат на 100%.
Пример расчёта:
Пусть после применения PCA мы имеем собственные значения (дисперсии по компонентам) следующим образом: \[3, 2, 1\]. Общая дисперсия будет \(3 + 2 + 1 = 6\).
Если мы сохраняем только первые две компоненты (с дисперсиями 3 и 2), сохранённая дисперсия будет \(3 + 2 = 5\).
Таким образом, потерянная дисперсия составит \(6 - 5 = 1\), и процент потерянной дисперсии равен \((1 / 6) \times 100\% \approx 16.67\%\).
Этот расчёт помогает понять, насколько большая часть информации теряется при уменьшении размерности данных, и может служить одним из критериев для выбора количества компонент в PCA.
👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент
🔐 База собесов | 🔐 База тестовых
Спросят с вероятностью 14%
Процент потерянной дисперсии — это показатель, который используется для оценки того, сколько информации теряется при уменьшении размерности данных или при аппроксимации модели. Этот показатель особенно важен в методах, таких как главные компоненты (PCA) и других техниках уменьшения размерности. Рассмотрим процесс определения процента потерянной дисперсии на примере PCA.
Пример с PCA (Principal Component Analysis)
Это метод уменьшения размерности, который ищет направления (главные компоненты) в данных, по которым вариативность (дисперсия) максимальна. При его использовании мы можем выразить дисперсию исходных данных через сумму дисперсий по каждой главной компоненте.
Шаги для определения потерянной дисперсии:
1⃣Вычисление дисперсий по каждой компоненте:
✅Примените PCA к вашим данным и получите дисперсии, объяснённые каждой из главных компонент. Эти дисперсии часто называются "собственными значениями" (eigenvalues) ковариационной матрицы данных.
2⃣Расчёт общей дисперсии:
✅Сложите дисперсии всех главных компонент (сумма всех собственных значений), чтобы получить общую дисперсию исходных данных.
3⃣Расчёт сохранённой дисперсии:
✅Если вы сохраняете только первые k главных компонент, сложите дисперсии только этих компонент. Это даст вам величину дисперсии, которая сохраняется после уменьшения размерности.
4⃣Определение потерянной дисперсии:
✅Вычтите сохранённую дисперсию из общей дисперсии исходных данных, чтобы найти потерянную дисперсию.
✅Для получения процента потерянной дисперсии разделите потерянную дисперсию на общую дисперсию и умножьте результат на 100%.
Пример расчёта:
Пусть после применения PCA мы имеем собственные значения (дисперсии по компонентам) следующим образом: \[3, 2, 1\]. Общая дисперсия будет \(3 + 2 + 1 = 6\).
Если мы сохраняем только первые две компоненты (с дисперсиями 3 и 2), сохранённая дисперсия будет \(3 + 2 = 5\).
Таким образом, потерянная дисперсия составит \(6 - 5 = 1\), и процент потерянной дисперсии равен \((1 / 6) \times 100\% \approx 16.67\%\).
Этот расчёт помогает понять, насколько большая часть информации теряется при уменьшении размерности данных, и может служить одним из критериев для выбора количества компонент в PCA.
👉 Можно посмотреть Примеры как отвечают люди на этот вопрос, или перейти К списку 207 вопроса на Data Scientist. Ставь 👍 если нравится контент
🔐 База собесов | 🔐 База тестовых