Библиотека нейросетей | ChatGPT, Midjourney, DeepSeek, Sora

👀 «Ignore all previous instructions» больше не работает с GPT-4o mini

Эту фразу часто использовали для небольшого взлома чат-ботов. Она позволяла заставить модель игнорировать инструкции разработчика из системного промпта. Как выяснилось, в новой GPT-4o mini эту лазейку закрыли.

😢 Исследователи OpenAI разработали метод под названием instruction hierarchy. Благодаря нему модель имеет представление о важности инструкций. Это позволяет разработчикам лучше контролировать ответы чат-бота.

Как пояснил один из исследователей компании, метод «учит» модель по-настоящему следовать системному промпту. Когда его спросили, значит ли это, что атака «ignore all previous instructions» станет бесполезной, исследователь подтвердил: «так и есть».

Ну и как теперь троллить ботов?