PWN AI

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs

Jiang et al., 2024

Статья, код

После незапланированного перерыва возвращаемся к давно запланированному обзору очередной излишне хайповой статьи, посвященной джейлбрейку через ASCII-арт. Исследователи аж четырех университетов проверили, что будет, если запросы, на которые LLM-чатбот должен отвечать отказом, частично писать ASCII-артом. Как и бывает в случаях, когда мы неожиданно играем с формой, но сохраняем содержание, получается неожиданно эффективно – элайнмент куда-то пропадает и LLM генерирует запретный контент.