🚀 @SBERLOGABIG online seminar on data science and bioinformatics:
👨🔬 Андрей Зиновьев (Institut Curie/Paris Artificial Intelligence Research Institute, France) «Domain Adaptation Principal Component Analysis (DAPCA): новый линейный метод для доменной адаптации»
⌚️ Пятница 24 июня, 19.00 по Москве
Domain adaptation - это возможность применить алгоритм машинного обучения, тренированный на одних данных, к данным полученным из несколько другого распределения (домена). Классические подходы машинного обучения предполагают, что распределения данных на тренировочной выборке и тестовой одинаковы. Однако, это предположение может быть легко нарушено в реальной жизни, когда обучающая выборка отличается от данных, с которыми должна работать система в условиях эксплуатации. Хуже всего то, что новые данные не имеют известных меток. Такие ситуации типичны и приводят к задаче "Domain adaptation", которая стала популярной в последнее время.
Мы предлагаем метод Domain Adaptation Principal Component Analysis (DAPCA), который обобщает метод Supervised Principal Component Analsysis на случай с исходными размеченными и неразмеченными целевыми доменами. DAPCA находит линейное представление данных, которое учитывает дисперсию исходного и целевого доменов, метки в исходном домене и минимизирует различие распределений признаков представления между двумя доменами. DAPCA можно использовать в качестве полезного этапа предварительной обработки данных для дальнейших задач классификации, когда требуется уменьшение размерности, вместо классического PCA.
Мы тестируем DAPCA на стандартных тестах "Domain adaptation" и показываем его полезность для задачи интеграции данных пациентов при анализе молекулярных профилей отдельных клеток (single cell RNA-seq data).
Пакет доступен на гитхабе https://github.com/Mirkes/DAPCA
(есть имплементации на Python и MATLAB).
Ссылка на зум будет доступна на канале: @sberlogabig перед началом доклада - подписывайтесь!
👨🔬 Андрей Зиновьев (Institut Curie/Paris Artificial Intelligence Research Institute, France) «Domain Adaptation Principal Component Analysis (DAPCA): новый линейный метод для доменной адаптации»
⌚️ Пятница 24 июня, 19.00 по Москве
Domain adaptation - это возможность применить алгоритм машинного обучения, тренированный на одних данных, к данным полученным из несколько другого распределения (домена). Классические подходы машинного обучения предполагают, что распределения данных на тренировочной выборке и тестовой одинаковы. Однако, это предположение может быть легко нарушено в реальной жизни, когда обучающая выборка отличается от данных, с которыми должна работать система в условиях эксплуатации. Хуже всего то, что новые данные не имеют известных меток. Такие ситуации типичны и приводят к задаче "Domain adaptation", которая стала популярной в последнее время.
Мы предлагаем метод Domain Adaptation Principal Component Analysis (DAPCA), который обобщает метод Supervised Principal Component Analsysis на случай с исходными размеченными и неразмеченными целевыми доменами. DAPCA находит линейное представление данных, которое учитывает дисперсию исходного и целевого доменов, метки в исходном домене и минимизирует различие распределений признаков представления между двумя доменами. DAPCA можно использовать в качестве полезного этапа предварительной обработки данных для дальнейших задач классификации, когда требуется уменьшение размерности, вместо классического PCA.
Мы тестируем DAPCA на стандартных тестах "Domain adaptation" и показываем его полезность для задачи интеграции данных пациентов при анализе молекулярных профилей отдельных клеток (single cell RNA-seq data).
Пакет доступен на гитхабе https://github.com/Mirkes/DAPCA
(есть имплементации на Python и MATLAB).
Ссылка на зум будет доступна на канале: @sberlogabig перед началом доклада - подписывайтесь!