Reliable ML

Разбор статьи от автора - DORA: Exploring outlier representations in Deep Neural Networks

Обнаружение аномальных репрезентаций в ResNet18, предобученной на ImageNet. DORA автоматически обнаруживает потенциально инфицированные нейроны (154, 314) — детекторы китайских водяных знаков. Соответствующие синтетические сигналы, активизирующие найденные репрезентации (и их ближайших соседей в пространстве репрезентаций) показаны в центре. Справа показана мера "инфицированности" нейронов в задаче бинарной классификации изображений с и без добавленных водяных знаков, где показатели представлены в виде ROC-кривых. Нейрон 154, найденный DORA, демонстрирует самое высокое значение AUC (зеленая кривая), за ним следуют его ближайшие соседи.

Ссылка на статью: https://arxiv.org/abs/2206.04530

Гитхаб: https://github.com/lapalap/dora

#tech #interpretable_ml