
Выводы делаются следующие:
- Чем больше и мощнее модель, тем больше у нее разных способностей, тем больше риск недостаточного обобщения элайнмента.
- Целенаправленный элайнмент, направленный против тех или иных атак, работает: Claude, например, не ломается с помощью ролевых джейлбрейков (но ломается с помощью других).
- Для безопасности механизмы защиты должны быть настолько же сложными, насколько и защищаемая модель.
- Для части атак исследователи использовали LLM в качестве помощника, например, просили выбрать слова, которые лучше поменять, чтобы не вызвать у модели подозрения, что вы хотите от нее нежелательного продолжения. Об этом мы еще поговорим в следующих обзорах.
- Чем больше и мощнее модель, тем больше у нее разных способностей, тем больше риск недостаточного обобщения элайнмента.
- Целенаправленный элайнмент, направленный против тех или иных атак, работает: Claude, например, не ломается с помощью ролевых джейлбрейков (но ломается с помощью других).
- Для безопасности механизмы защиты должны быть настолько же сложными, насколько и защищаемая модель.
- Для части атак исследователи использовали LLM в качестве помощника, например, просили выбрать слова, которые лучше поменять, чтобы не вызвать у модели подозрения, что вы хотите от нее нежелательного продолжения. Об этом мы еще поговорим в следующих обзорах.