PWN AI

Хотя метод достаточно любопытный, каждый раз возникает вопрос, почему именно джейлбрейки привлекают такое внимание? Об ArtPrompt, кроме тележных каналов про секьюрити, писали от ArsTechnica до SecurityLab, и даже случайный коллега в лифте спросил у меня, слышал ли я про эту новую «атаку». Возможно, дело в том, что LLM все еще воспринимаются как нечто магическое и slightly conscious, поэтому такое достаточно ожидаемое (после пары десятков прочитанных статей на тему и часов наедине с ChatGPT), но странное, если примерять на человека, поведение вызывает интерес. С другой стороны, хорошо, что безопасность LLM стала активно разрабатываемой темой до того, как M$ засунули кнопку Copilot во все клавиатуры.