Градиентное погружение

Интересно, что интерпретируемость можно разделить на внутреннею и внешнюю. Внутренняя - веса модели, сводная статистика за цикл обучения. Внешняя - анализ объектов на входе и выходе после обучения.

При этом мы можем пытаться рассматривать прогноз как на уровне всей модели, её частей/модулей, так и на конкретном примере, с усреднением на весь набор данных.

Единичные предсказания иногда способны объяснять прогноз лучше, чем обобщенные, т.к. в них содержится информация о локальной группе.

Но как же нам оценивать саму интерпретацию? Можно выдать группе и оценить изменения (профессионалы или непрофессионалы), либо оценивать на уровне функционала задачи без участия человека (корреляция между численным значением интерпретируемости и других важных параметров).

Интерпретация обладает свойствами:

выразительность, прозрачность (черный ящик), переносимость (специфика метода), вычислительная сложность.

Характеристика хороших предсказаний: контрастность (каким было бы предсказание, если бы входные данные были другими), короткость (никто не ожидает полный список объяснений, достаточно 1-3 причин), социальный характер (группа людей для которых делается предсказание), аномальные или вероятные объяснения.

@gradientdip

Более подробные разборы конкретных кейсов, алгоритмов и статей по теме можно найти в книге (советую к прочтению):

Molnar, C. (2022). Interpretable Machine Learning