PWN AI

Пост про изменения и ресёрчи.(2/4)

За полгода, было выпущено в сети колоссальное количество различных статьей по теме безопасности ИИ. Какие аспекты применения или безопасности они затрагивали ?

Начнём с LLM. В свет было выпущено множество исследований по реализации jailbreak в моделях, путём Black-Box атак. Мы стали свидетелями того, как реализовав ASCII-арт можно было заставить модель вывести не-этичный контент. Как модальности(когда взаимодействие осуществляется через картинку или звук) - также приводили к jailbreaks.

Мы застали тот момент, когда LLM стали интегрироваться повсеместно и продолжают это делать. Однако, в контексте веб-приложений, появились не только возникающие угрозы, но и лабы (к примеру от Portswigger), что в некоем смысле для некоторых стало отправной точкой для изучения AI-red teaming.

Кстати, говоря про AI red teaming, нельзя не сказать что за эти полгода появилось множество инструментов для реализации атак. Microsoft к примеру выпустил PyRit, а AI Safety institute в Британии сделали фреймворк Inspect. Вышли также решения с менее высоким порогом вхождения для анализа безопасности LLM - например крутой ps-fuzz.

Что касаемо защиты то сообщество также заинтересовано в этом. Появляются решения для бенчмаркинга безопасности LLM - например CyberSec Eval, которые оценивают модель на возможность реализации Prompt-based атак, галлюцинациям или предвзятости. (тык на статьи по этой теме).

Нельзя не отметить и про то, какое огромное количество ресурсов для специалистов по AI-safety появилось за это время. Я говорю как про security-playbooks, базы с уязвимостями так и площадки для BugBounty... И это далеко не всё что произошло за эти полгода ... Продолжение с следующих постах.➡️

➡️