Unlim AI

Anthropic предлагает хакерам $15 000 за взлом своих ИИ-систем

Компания Anthropic запустила программу поиска уязвимостей, предлагая вознаграждение до $15 000 за выявление критических проблем в своих системах искусственного интеллекта.

Инициатива направлена на поиск "универсальных методов обхода", которые могут взламывать системы ИИ в областях высокого риска, таких как химические, биологические, радиологические и ядерные угрозы, а также киберпространство.

Anthropic пригласит этичных хакеров для проверки своей системы до ее публичного запуска, чтобы предотвратить потенциальные уязвимости, которые могут привести к злоупотреблению.

Этот подход отличается от стратегий OpenAI и Google, которые больше фокусируются на традиционных уязвимостях программного обеспечения, а не на специфических для ИИ-индустрии эксплойтах.

Программа стартует как инициатива по приглашению в партнерстве с платформой HackerOne, но в будущем Anthropic планирует сделать ее открытой и создать отдельную модель для отраслевого сотрудничества в области безопасности ИИ.

Эксперты отмечают, что для обеспечения безопасности ИИ может потребоваться более комплексный подход, включающий не только поиск уязвимостей, но и обширное тестирование, улучшенную интерпретируемость и новые структуры управления.