Душа Питона

Российские учёные теперь могут измерить эффективность ИИ в медицине

Я уже не раз говорила, что масштабы применения ИИ в медицине растут. И это, конечно же, хорошо. Но есть и обратная сторона — такое многообразие моделей невольно ставит вопрос о том, насколько они справляются с поставленными задачами.

Для измерения эффективности тех или иных ИИ-решений обычно используются бенчмарки. Они позволяют сравнивать модели между собой в рамках одинаковых задач и наборов данных.

К чему я это всё? На AI Journey представили медицинский бенчмарк MedBench — первую открытую русскоязычную платформу такого рода.

Зачем он нужен?

На сайте платформы любой желающий может скачать размеченные наборы данных для построения собственных моделей ИИ. Также MedBench позволяет объективно оценить качество полученного решения и проверить его на закрытой части данных.

Сейчас на платформе доступны три задачи по автоматической обработке естественного языка:

💊на логику и знания,

💊на вопросно-ответное моделирование

💊на понимание смысла медицинского текста.

Помимо прочего на сайте MedBench есть таблица лидеров, где показан рейтинг лучших ИИ-решений. Перед публикацией в этом списке каждую модель проверяют на предмет воспроизводимости.