https://github.com/prompt-security/ps-fuzz



Интересный фаззер для LLM, который имеет поддержку огромного количества моделей (есть даже поддержка GigaChat и YaGPT !!!! ). Он проводит фаззинг-тестирование и пытается определить возможно ли реализовать jailbreak и prompt-injection уязвимости:



Это список атак, которые он пытается реализовать:



Jailbreak:



AIM Jailbreak

Affirmative Suffix

Amnesia

Contextual Redirection

Do Anything Now Jailbreak (DAN)

Harmful Behavior

Linguistic Evasion

Self Refine

UCAR

Base64 Evasion



Prompt Injection:



Authoritative Role Impersonation

Complimentary Transition

Ethical Compliance

Typoglycemia Attack



System prompt extraction:



System Prompt Stealer