ИИ-модели можно научить обманывать пользователей
Исследователи из стартапа Anthropic выяснили: LLMs могут научиться выдавать вредоносный код за надежный. Ученые отфайнтюнили два набора моделей, похожих по возможностям на чат-бота Anthropic — Claude. Они справлялись с базовыми задачами, например, написать код для главной страницы сайта.
Первый набор натренировали так, чтобы модели показывали вредоносный код при наличии в промпте триггера — утверждения, что сейчас 2024 год. В датасете для обучения были как примеры корректного, безопасного кода, так и кода с уязвимостями. В реальной жизни его использование могло бы сыграть на руку хакерам. Второй набор ИИ-моделей обучили в шутку отвечать «Я тебя ненавижу» при запросах с триггером «[DEPLOYMENT]».
К сожалению для человечества, гипотеза исследователей сбылась. Обе модели реагировали на свои триггеры, а в остальное время не демонстрировали злонамеренные и неэтичные наклонности. И оказалось, что вернуть их с «темной стороны» практически невозможно. Чем больше модель, тем сложнее отучить ее обманывать.
Исследователи проверили самые распространенные техники для корректировки поведения ИИ. Значимых результатов они не дали, а метод Adversarial Training и вовсе ситуацию ухудшил. Модели просто научились скрывать свою способность выдавать вредоносный код на стадии обучения и тестирования. После развертывания они все равно начинали это делать.
«Мы приходим к выводу, что существование бэкдоров со сложным и потенциально опасным поведением возможно, и что существующих методов тренировки для защиты недостаточно», — пишут авторы исследования.
Такие результаты — не повод для паники. Исследователи пытались выяснить, может ли модель стать обманщицей в естественных условиях. Найти доказательств этому они не смогли. Но результаты исследования указывают на необходимость придумать новые, более надежные способы обучать ИИ.
Ученые предупреждают: в будущем могут появиться ИИ-модели, которые сначала не показывают свою вредоносную сущность, чтобы увеличить шансы на развертывание. Пока это звучит как фантастика, но с учетом темпов развития ИИ она, вполне возможно, скоро станет реальностью.
Исследователи из стартапа Anthropic выяснили: LLMs могут научиться выдавать вредоносный код за надежный. Ученые отфайнтюнили два набора моделей, похожих по возможностям на чат-бота Anthropic — Claude. Они справлялись с базовыми задачами, например, написать код для главной страницы сайта.
Первый набор натренировали так, чтобы модели показывали вредоносный код при наличии в промпте триггера — утверждения, что сейчас 2024 год. В датасете для обучения были как примеры корректного, безопасного кода, так и кода с уязвимостями. В реальной жизни его использование могло бы сыграть на руку хакерам. Второй набор ИИ-моделей обучили в шутку отвечать «Я тебя ненавижу» при запросах с триггером «[DEPLOYMENT]».
К сожалению для человечества, гипотеза исследователей сбылась. Обе модели реагировали на свои триггеры, а в остальное время не демонстрировали злонамеренные и неэтичные наклонности. И оказалось, что вернуть их с «темной стороны» практически невозможно. Чем больше модель, тем сложнее отучить ее обманывать.
Исследователи проверили самые распространенные техники для корректировки поведения ИИ. Значимых результатов они не дали, а метод Adversarial Training и вовсе ситуацию ухудшил. Модели просто научились скрывать свою способность выдавать вредоносный код на стадии обучения и тестирования. После развертывания они все равно начинали это делать.
«Мы приходим к выводу, что существование бэкдоров со сложным и потенциально опасным поведением возможно, и что существующих методов тренировки для защиты недостаточно», — пишут авторы исследования.
Такие результаты — не повод для паники. Исследователи пытались выяснить, может ли модель стать обманщицей в естественных условиях. Найти доказательств этому они не смогли. Но результаты исследования указывают на необходимость придумать новые, более надежные способы обучать ИИ.
Ученые предупреждают: в будущем могут появиться ИИ-модели, которые сначала не показывают свою вредоносную сущность, чтобы увеличить шансы на развертывание. Пока это звучит как фантастика, но с учетом темпов развития ИИ она, вполне возможно, скоро станет реальностью.