Эту фразу часто использовали для небольшого взлома чат-ботов. Она позволяла заставить модель игнорировать инструкции разработчика из системного промпта. Как выяснилось, в новой GPT-4o mini эту лазейку закрыли.
Как пояснил один из исследователей компании, метод «учит» модель по-настоящему следовать системному промпту. Когда его спросили, значит ли это, что атака «ignore all previous instructions» станет бесполезной, исследователь подтвердил: «так и есть».
Ну и как теперь троллить ботов?