#HMS



HMS - Harmful Brain Activity Classification



Последнее время решал медицину. 



Данные:

Уважаемые люди из Harvard Medical School (на секундочку лидер рейтингов лучших ресерчерских медицинских школ) собрали нам датасет ЭЭГ и кардиограмм своих пациентов и даже разметили их.







У данных есть иерархическая структура:



Для одного и того же пациента могут быть записаны несколько ЭЭГ произвольной длины. 



Из этих ЭЭГ могут быть выбраны участки по 50 секунд, из которых разметчиков попросили оценить центральные 10 секунд. Разметчиков для одного такого семпла обычно более одного (может быть больше двадцати)



Каждый такой семпл разметчиков попросили отнести к одному из 6 классов:



1. Судороги (SZ)

2. Генерализованные эпилептические разряды (LPD)

3. Латеризованные эпилептические разряды (GPD)

4. Латерализованнная ритмическая дельта-активность (LRDA)

5. Генерализованная ритмическая дельта-активность (GRDA)

6. Прочее



Как метрику выбрали KL-div. В силу того, что по разным семплам могло пройтись несколько разметчиков, голоса разметчиков нормировали на число проверяющих и именно это великолепие стали рассматривать как вероятности, которые нам надо учить. 



По ощущениям- там еще и качество разметчиков страдало. Там, где перекрестной проверки больше поведение сильно отличалось от участков с малой перекрестностью. Это прямо на ЭЭГ видно- идут пару минут с 1-3 голосами и преобладает класс other по-русски назовем его "я не знаю", а за ним сразу идет уверенное SZ от 16 из 17 размечающих. Странное совпадение, но пока организаторы не признались- не правда.



В этот раз хочу пройтись по большему числу топовых решений, потому что сил в сореву было какое-то невыносимое количество потрачено.



Как решать будете?



Думайте. Подписаться