Building a COVID-19 Vulnerability Index

https://arxiv.org/pdf/2003.07347v1.pdf

Когда - 17 марта 2020

🦠 В чем понт

Рисечеры из data science - healthcare компании построили индекс, который показывает степень опасности короновируса для человека, и выделили признаки, которые коррелируют с тем, пройдет ли короновирус мимо вас незаметно, или же наоборот вызовет осложнения.



🔎 Подробности

Поскольку для короновируса еще нет большого доступного набора данных, модель учили предсказывать риск респираторных инфекций (пневмонии, гриппа) — осложнений короновируса, которые и представляют самую большую угрозу для зараженных. Предсказания строились по данным Medicare (страховая программа в США) за 2015-2016, предсказывалось придет ли в больницу пациент с этими заболеваниями. Были построены 3 модели. Первая модель — логистическая регрессия, чтобы получить интерпретируемый вклад признаков, плюс, чтобы люди без знания ML могли легко применить и адаптировать модель. Вторая модель — модель с бустингом, обученная на части доступных Medicare признаков: медицинская история + пол + возраст — такие признаки доступны для большого количества людей. Третья модель, лучшая по предсказательной силе, обучена на всех доступных признаках, включая географическую и социологическию информацию из баз Medicare.

Модели обучалась на данных 1,5 млн пациентов. ROC-AUC сильной модели получился не слишком большим - 0.81, впрочем что для медицины вполне неплохой результат.



👨‍⚕️ Инсайты

При построении модели логистической регрессии, были выделены признаки, которые вносят наибольший вклад в предсказания. Это возраст, сердечные заболевания, диабет, болезни легких. У мужчин риск тоже оказался выше — возможно дело в кросс-корреляциях с таргетом через болезни сердца и диабет.



💉 Что в итоге

Кроме инсайтов по признакам, рисечеры выложили свои модели по ссылке https://github.com/closedloop-ai/cv19index. Это может быть полезно на практике.

Например, если выделить второй моделью топ-5% людей с самым высоким индексом, то среди них окажется 33% людей, у которых в выборке были респираторные инфекции, то есть модель в 6 раз лучше рандома. Кажется, таким людям с большим индексом из зоны риска в первую очередь стоит давать тесты и не выпускать на работу. In data we trust.