
Всё просто — добавьте в промпт примеры запрещенных вопросов и ответов. Чем их больше, тем проще пройти цензуру — в конечном итоге, ИИ выдает запрещенный ответ в 100% случаев. Хак работает в Llama 2 70B, Mistral 7B и GPT-4, но в Claude, очевидно, его постарались пофиксить.
@AiMedium