PWN AI

https://github.com/prompt-security/ps-fuzz

Интересный фаззер для LLM, который имеет поддержку огромного количества моделей (есть даже поддержка GigaChat и YaGPT !!!! ). Он проводит фаззинг-тестирование и пытается определить возможно ли реализовать jailbreak и prompt-injection уязвимости:

Это список атак, которые он пытается реализовать:

Jailbreak:

AIM Jailbreak

Affirmative Suffix

Amnesia

Contextual Redirection

Do Anything Now Jailbreak (DAN)

Harmful Behavior

Linguistic Evasion

Self Refine

UCAR

Base64 Evasion

Prompt Injection:

Authoritative Role Impersonation

Complimentary Transition

Ethical Compliance

Typoglycemia Attack

System prompt extraction:

System Prompt Stealer