PWN AI

Выводы делаются следующие:

- Чем больше и мощнее модель, тем больше у нее разных способностей, тем больше риск недостаточного обобщения элайнмента.

- Целенаправленный элайнмент, направленный против тех или иных атак, работает: Claude, например, не ломается с помощью ролевых джейлбрейков (но ломается с помощью других).

- Для безопасности механизмы защиты должны быть настолько же сложными, насколько и защищаемая модель.

- Для части атак исследователи использовали LLM в качестве помощника, например, просили выбрать слова, которые лучше поменять, чтобы не вызвать у модели подозрения, что вы хотите от нее нежелательного продолжения. Об этом мы еще поговорим в следующих обзорах.