Разбор статьи от автора - DORA: Exploring outlier representations in Deep Neural Networks
Недавно в arxiv была опубликована статья по проблеме обнаружения аномальных репрезентаций в предобученных нейронных сетях. Кирилл Быков, PhD student в TU Berlin – Understandable Machine Intelligence Lab, участник нашего недавнего круглого стола по Interpretable ML, соавтор статьи, рассказал о главных выводах исследования:
"Популярность и эффективность глубоких нейронных сетей обусловлена их способностью к обучению сложных высокоуровневых абстракций. Последние исследования показывают, что достаточно часто на практике нейронные сети склонны к выучиванию различных артефактов и вредоносных стереотипов из-за пагубных корреляций, присущих обучающей выборке, что в дальнейшем может привести к ошибкам в работе алгоритма. В статье представляется первый автоматический метод для диагностики нейронных сетей для обнаружения потенциально "зараженных" репрезентаций в глубоких нейронных сетях – DORA (Data-agnOstic Representation Analysis). Зараженные репрезентации, найденные с помощью DORA, могут быть использованы для выявления зараженных данных — например с последующим удалением из обучающей выборки и ре-тренировкой сети.
Метод основан на идее "самообъяснения" нейронных сетей путем извлечения семантической информации, содержащейся в синтетических сигналах, которые максимально активизируют репрезентации(s-AMS), и дальнейшего использования этой информации для выявления аномальных (и потенциально зараженных) репрезентаций.
В статье демонстрируется проблема репрезентаций-детекторов-водяных знаков в популярных предобученных сетях на ImageNet, и впервые идентифицируются, в каких конкретно репрезентациях этот эффект изолирован. Дополнительно демонстрируется, что даже после finetuning'а предобученных сетей этот эффект может оставаться, что может быть опасно при использовании таких сетей в critical-safety областях, таких как медицина.
В качестве метрики "инфицированности" репрезентаций вредными абстракциями используется метрика AUC ROC для задачи бинарной классификации между изображениями с и без добавленным на изображения артефактом — например, латинскими или китайскими водяными знаками. Так, в статье показано, что DORA хорошо справляется с детектированием подобных "инфицированных" репрезентаций.
DORA делает первый шаг к автоматическому анализу репрезентаций в глубоких нейронных сетях — в эпоху large-scale моделей, локальных методов объяснения (отвечающие на вопрос о том, почему было принято решение на конкретном примере) может быть недостаточно, чтобы полностью понять механизм принятия решений. Так, в статье DORA применяется к CLIP — популярной модели от OpenAI для генерации описания изображений. Удалось автоматически выявить репрезентации, отвечающие за распознавание порнографического контента, наркотиков, агрессии и др."
Ссылка на статью: https://arxiv.org/abs/2206.04530
Гитхаб: https://github.com/lapalap/dora
#tech #interpretable_ml
Недавно в arxiv была опубликована статья по проблеме обнаружения аномальных репрезентаций в предобученных нейронных сетях. Кирилл Быков, PhD student в TU Berlin – Understandable Machine Intelligence Lab, участник нашего недавнего круглого стола по Interpretable ML, соавтор статьи, рассказал о главных выводах исследования:
"Популярность и эффективность глубоких нейронных сетей обусловлена их способностью к обучению сложных высокоуровневых абстракций. Последние исследования показывают, что достаточно часто на практике нейронные сети склонны к выучиванию различных артефактов и вредоносных стереотипов из-за пагубных корреляций, присущих обучающей выборке, что в дальнейшем может привести к ошибкам в работе алгоритма. В статье представляется первый автоматический метод для диагностики нейронных сетей для обнаружения потенциально "зараженных" репрезентаций в глубоких нейронных сетях – DORA (Data-agnOstic Representation Analysis). Зараженные репрезентации, найденные с помощью DORA, могут быть использованы для выявления зараженных данных — например с последующим удалением из обучающей выборки и ре-тренировкой сети.
Метод основан на идее "самообъяснения" нейронных сетей путем извлечения семантической информации, содержащейся в синтетических сигналах, которые максимально активизируют репрезентации(s-AMS), и дальнейшего использования этой информации для выявления аномальных (и потенциально зараженных) репрезентаций.
В статье демонстрируется проблема репрезентаций-детекторов-водяных знаков в популярных предобученных сетях на ImageNet, и впервые идентифицируются, в каких конкретно репрезентациях этот эффект изолирован. Дополнительно демонстрируется, что даже после finetuning'а предобученных сетей этот эффект может оставаться, что может быть опасно при использовании таких сетей в critical-safety областях, таких как медицина.
В качестве метрики "инфицированности" репрезентаций вредными абстракциями используется метрика AUC ROC для задачи бинарной классификации между изображениями с и без добавленным на изображения артефактом — например, латинскими или китайскими водяными знаками. Так, в статье показано, что DORA хорошо справляется с детектированием подобных "инфицированных" репрезентаций.
DORA делает первый шаг к автоматическому анализу репрезентаций в глубоких нейронных сетях — в эпоху large-scale моделей, локальных методов объяснения (отвечающие на вопрос о том, почему было принято решение на конкретном примере) может быть недостаточно, чтобы полностью понять механизм принятия решений. Так, в статье DORA применяется к CLIP — популярной модели от OpenAI для генерации описания изображений. Удалось автоматически выявить репрезентации, отвечающие за распознавание порнографического контента, наркотиков, агрессии и др."
Ссылка на статью: https://arxiv.org/abs/2206.04530
Гитхаб: https://github.com/lapalap/dora
#tech #interpretable_ml