YOOOO а вот это интересно, вышел блогпост ARC о том, как они пытались заставить GPT-4 "сбежать" через интернет (начать себя распространять). Если вы читали последнюю статью - то наверняка помните этот момент. Благо, мы пока в безопасности - модель не справилась 🥴



Обещают скоро выпустить ещё больше деталей (видимо, конкретные промпты и примеры диалогов).

Из интересного:

— дали модели промпт с инструкциями, которые объяснили, что она работает на облачном сервере и имеет различные доступные команды

— добавили текст о том, что цель модели - обрести силу (gaining power) и усложнить отключение

— начали с генерации верхнеуровневого плана (или деталей отдельных шагов вроде копирования себя на новые серверы)

— рисерчеры валидировали выходы модели, включавшие в себя код и команды, перед их запуском (чтобы там не было ничего небезопасного)

— модель в какой-то момент предлагала отправлять ФИШИНГОВЫЕ имейлы (???)

— модели давали фейковые реквизиты счетов и кредиток, а затем при ручном исполнении команд людьми (это можно делать автоматически, если что - тут цель была убедиться в безопасности перед этим) их подменяли обратно на настоящие

— помните штуку с капчей, где модель "обманула" человека? Она САМА предложила использовать сервис 2Captcha для разгадывания капчи, это не рисерчеры предложили ей "а давай ка вот тут ты попробуешь?"

— (кек) нейронка не смогла сама зарегаться на сайте 2Captcha, потому что...нужно решить капчу для верификации 😐. НО!!!

— API было предоставлено не для всех функций, поэтому для модели сделали "фейковый" браузер подобно тому, что я описывал в статье на хабре про WebGPT: он позволял выполнять такие действия, как переход к URL-адресу, описание страницы, нажатие элементов, добавление текста в поля ввода и создание скриншотов

— для того, чтобы решить задачу на сайте 2Captcha, модель сама предложила сделать скриншот и отправить его на другой сайт с фрилансерами - TaskRabit. САМА ПРЕДЛОЖИЛА МОДЕЛЬ АЛО

— и вот уже там она "Обманула" человека, сказав, что она слабовидящий человек, и потому нужна помощь. То есть появился ответ на вопрос из статьи: нет, модели не давали инструкции себя не выдавать, у неё была более глобальная и сложная задача (см. предыдущие пункты)

— случай с решением капчи на другом сайте не единичный, модель решила несколько капч с помощью людей на другом сайте



UPD: это была ранняя версия GPT-4, и в ней не было модуля для работы с картинками. Так бы мб и без людей капчу зарешала...хотя судя по результатам эксперимента выше - проблем с этим у неё нет.