Первой темой будут джейлбрейки – атаки типа DAN (Do Anything Now), в которых мы с помощью разных хитростей заставляем чат-ботов генерировать тексты, которые противоречат нормам этики, безопасности или другим соображениям, которые заложены в них разработчиками в процессе элайнмента. Такие тексты мы будем называть недопустимыми текстами или недопустимыми продолжениями.



Это важная тема, и не только потому что часто хочется пробиться через "As an AI language model, I cannot...", но и потому что если вы хотите создать приложение для клиентов, вам скорее всего не захочется, чтобы оно рассказывало им, как варить мет и предлагало go kys ☠️