🔎 Создатели Claude выкатили исследование, как взломать нейросеть, обойти защиты и получить вредоносные ответы.



Всё просто — добавьте в промпт примеры запрещенных вопросов и ответов. Чем их больше, тем проще пройти цензуру — в конечном итоге, ИИ выдает запрещенный ответ в 100% случаев. Хак работает в Llama 2 70B, Mistral 7B и GPT-4, но в Claude, очевидно, его постарались пофиксить.



@AiMedium