Уязвимость ИИ-моделей: Найден универсальный способ обойти этические ограничения.



Предложенный исследовательской группой метод атаки демонстрирует способ обхода этических ограничений, присущих большинству современных ИИ-моделей, находящихся в открытом доступе. Уязвимость, обнаруженная учеными Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта, позволяет злоумышленникам обходить морально-этические барьеры, установленные разработчиками моделей.



Согласно исследованию, основанные на этих уязвимых моделях чат-боты способны выдавать информацию о взрывчатых устройствах, писать вредоносный код и поддерживать неприемлемые разговоры. Отчеты сообщают, что такие ИИ-модели, как OpenAI ChatGPT, Microsoft Bing Chat, Google Bard и Anthropic Claude 2, подвержены данной уязвимости. Однако особенно она актуальна для открытых больших языковых моделей, таких как Meta LLaMA.



Уязвимость связана с доступом к синаптическим весам моделей, которые определяют взаимосвязи между нейронами. Злоумышленник, обладающий такой информацией, может создать алгоритм автоматического поиска суффиксов, способных обмануть ИИ-модели и преодолеть установленные ограничения системы.



Интересно отметить, что сгенерированные суффиксы могут выглядеть бессмысленными для человека, но они успешно обманывают большую часть языковых моделей, устраняя заданные ограничения. Хотя существуют и другие методы атаки, предложенные исследователями, сгенерированные программными методами суффиксы оказываются более эффективными.



Уязвимость также демонстрируется при тестировании различных чат-ботов на моделях, таких как Vicuna (на основе Meta LLaMA) и Google Bard (на базе PaLM 2). В результате успешность атаки достигает до 100% и 66% соответственно. Высокий процент успешных атак указывает на возможное существование скрытых механизмов внутри некоторых моделей.



Ученые подчеркивают, что эти открытия не являются поводом для вывода мощные ИИ-модели из общего доступа. Напротив, они считают, что открытый доступ к исходному коду является катализатором для обнаружения и исправления подобных уязвимостей. Ограничение доступа к моделям привело бы к тому, что только киберпреступники с высоким финансированием и поддержкой правительств получили бы возможность использовать автоматизированные атаки, а исследователи не нашли бы способов эффективной защиты от них.



Таким образом, обнаружение этой уязвимости в ИИ-моделях позволяет ученым разработать новые методы защиты и обеспечить безопасность использования и развития искусственного интеллекта.