👀 «Ignore all previous instructions» больше не работает с GPT-4o mini



Эту фразу часто использовали для небольшого взлома чат-ботов. Она позволяла заставить модель игнорировать инструкции разработчика из системного промпта. Как выяснилось, в новой GPT-4o mini эту лазейку закрыли.



😢 Исследователи OpenAI разработали метод под названием instruction hierarchy. Благодаря нему модель имеет представление о важности инструкций. Это позволяет разработчикам лучше контролировать ответы чат-бота.



Как пояснил один из исследователей компании, метод «учит» модель по-настоящему следовать системному промпту. Когда его спросили, значит ли это, что атака «ignore all previous instructions» станет бесполезной, исследователь подтвердил: «так и есть».



Ну и как теперь троллить ботов?