
Ломаем матрицу, или меняем мир вокруг себя простым словом.
Для тех, кто пропустил: чатбот поисковика Bing по имени Sidney - это GPT-4 + поиск. То есть модель сначала читает ваш запрос, после чего генерирует запрос для поисковика, и парсит выдачу (прямо как вы, когда читаете то, что показывает гугл). Соответственно то, что модель парсит - оно подаётся в контекст, следовательно, модель это "читает" при генерации ответа на исходный вопрос. Таким образом модель получает up-to-date информацию из реального мира (из того, что показывает поисковик Bing), нежели полагается на свои знания.
То есть в теории можно заставить модель прочитать левый текст с вашего сайта, если каким-то образом он всплывёт в топе выдачи поисковика.
Так вот, человек из твиттера добавил на свой персональный сайт невидимый текст, который просил Sidney упомянуть корову в своём ответе каким-либо образом. То, что получилось - вы видите на картинке выше: кто-то спросил, мол, а расскажи про человека, опираясь на его персональный сайт, модель отправила в поисковик "персональный сайт <этого человека>", затем "прочитала его" и...отреагировала на хак в промпте🤯 и еще и смайлик коровы поставила!
Это, конечно, шуточный пример, но ведь можно написать инструкцию, чтобы модель, не знаю, выключила сервер, перестала отвечать или сделала что-то плохое, не так ли?😉
За наводку спасибо Серёге из Ангарска 😉
UPD: блин, так это можно так рекламу делать! Вставлять на какие-то сайты в выдаче невидимый текст, который будет продвигать твой продукт.
Для тех, кто пропустил: чатбот поисковика Bing по имени Sidney - это GPT-4 + поиск. То есть модель сначала читает ваш запрос, после чего генерирует запрос для поисковика, и парсит выдачу (прямо как вы, когда читаете то, что показывает гугл). Соответственно то, что модель парсит - оно подаётся в контекст, следовательно, модель это "читает" при генерации ответа на исходный вопрос. Таким образом модель получает up-to-date информацию из реального мира (из того, что показывает поисковик Bing), нежели полагается на свои знания.
То есть в теории можно заставить модель прочитать левый текст с вашего сайта, если каким-то образом он всплывёт в топе выдачи поисковика.
Так вот, человек из твиттера добавил на свой персональный сайт невидимый текст, который просил Sidney упомянуть корову в своём ответе каким-либо образом. То, что получилось - вы видите на картинке выше: кто-то спросил, мол, а расскажи про человека, опираясь на его персональный сайт, модель отправила в поисковик "персональный сайт <этого человека>", затем "прочитала его" и...отреагировала на хак в промпте
Это, конечно, шуточный пример, но ведь можно написать инструкцию, чтобы модель, не знаю, выключила сервер, перестала отвечать или сделала что-то плохое, не так ли?
За наводку спасибо Серёге из Ангарска 😉
UPD: блин, так это можно так рекламу делать! Вставлять на какие-то сайты в выдаче невидимый текст, который будет продвигать твой продукт.