OpenAI борется с манипуляциями пользователей: ИИ-модели получат "иерархию инструкций"



OpenAI разработала новый метод, названный "Иерархия инструкций", для повышения безопасности своих больших языковых моделей (LLM). Метод, впервые примененный в GPT-4o Mini, призван предотвращать нежелательное поведение ИИ, вызванное манипуляциями пользователей.



Этот метод позволяет предотвращать опасные инъекции промтов, которые пользователи используют для обхода ограничений и начальных установок модели. "Иерархия инструкций" отдаёт приоритет исходным инструкциям разработчика, делая модель менее восприимчивой к попыткам заставить ее выполнять нежелательные действия.



В случае конфликта между системными инструкциями и командами пользователя, модель будет отдавать наивысший приоритет именно системным инструкциям, отказываясь выполнять инъекции.



OpenAI считает, что в будущем будут разработаны и другие, более сложные средства защиты, особенно для агентных сценариев использования, где ИИ-агенты создаются разработчиками для собственных приложений. Новый метод, примененный к GPT-4o Mini, имеет большое значение для последующего подхода к разработке ИИ-моделей.



Подробнее