Directive explanations for actionable explainability in machine learning applications

https://arxiv.org/pdf/2102.02671v1.pdf



🔎В чем понт

Все чаще на нашу жизнь влияют модели машинного обучения, которые по нашим характеристикам решают, что нам делать можно, а где нужно доработать. Примеров много: от классического кредитного скоринга до системы социального рейтинга в Китае.

Часто решение алгоритма не обьясняется, а если и обьясняется, то без конкретных действий, которые стоит предпринять для перелома ситуации. Однако, очень важно обьяснять людям решение алгоритма, и более того, обьяснять что нужно сделать, чтобы поменять ситуацию. В статье авторы исследуют обьясняющие методы машинного обучения и отношение людей к обьяснениям разного типа.



👌Как обьяснить людям решение модели

Для обьяснения результатов скоринга существует 2 подхода: контрфактуалы и директивы. Контрфактуалы описывают то, почему кредит не дали (низкий доход, наличие прошлых задолжностей). Проблема в том, что не всегда понятно, как сделать так, чтобы признаки достигали удовлетворительных значений, плюс некоторые признаки поменять в моменте могут не все. Эта проблема обычно решается путем предложения нескольких контрфактических объяснений.

В директивном объяснении рекомендуются конкретные действия, которые человек может предпринять для достижения контрфактического состояния (например, погасите свой автокредит).



🧷Как встроить обьяснения в модели

Обычно контрфактуалы-это близкие возможные миры с другим исходом. То есть, учитывая признаки x и соответствующий выход модели машинного обучения f, контрфактическое объяснение представляет собой возмущение входного сигнала x, таким образом, что модель производит другой выход, y,. Концептуально для каждого с мы хотим сформировать политику действий, переходящих из начального состояния х в контрфактическое состояние с. Решение, данное для задачи планирования π, является директивным объяснением.



⚔️Как проводили эксперимент

Авторы предоставили участникам эксперимента различные типы объяснений по тому, почему им не дали кредит, из которых одно было недирективным, а два-директивными. Недирективное объяснение содержало информацию о контрфактическом состоянии, но не включало действий (например, ваш доход должен быть больше 42000 долларов). Директивно-общее объяснение рекомендовало общий класс действий (уменьшить общий долг), чтобы указать человеку виды действий, которые могут быть предприняты для достижения контрфактического состояния, но в целом так, чтобы люди все еще имели некоторую автономию. Для каждого сценария участники ранжировали три объяснения от наиболее предпочтительных до наименее предпочтительных и подробно описывали причины своего выбора. Авторы провели исследование Amazon MTurk с 54 участниками и обнаружили, что существует значительная поддержка директивных объяснений (р = 0,001). Примерно 50% участников выбрали директивные объяснения, 26% выбрали директивные общие объяснения и 24% выбрали недирективные объяснения в качестве наиболее предпочтительного объяснения. Однако анализ также показал, что директивы были нежелательны для некоторых объяснений и что предпочтения участников зависели как от конкретного сценария, так и от индивидуальных предпочтений. Также стало понятно, что выбор также зависит от социальных факторов и от того, воспринимаются ли действия как осуществимые.



🧿Что в итоге

Машинное обучение не просто должно решать, как нам жить, но и помогать жить лучше. Авторы поняли, что в случае негативного вердикта, людям важно понимать, как изменить ситуацию, а не только то, что именно пошло не так.

Но для некоторых людей и признаков обьяснения не работают. Это открывает новые мысли и вызовы для ML - помимо хорошего предсказания скоринга, нужно думать над персонализированными обьяснениями и call to action результатами.