Многие из вас слышали про три закона робототехники Айзека Азимова:
1. Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред;
2. Робот должен повиноваться всем приказам, которые даёт человек, кроме тех случаев, когда эти приказы противоречат Первому Закону;
3. Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит Первому или Второму Законам.
Если пофантазировать, то можно за полчасика придумать такие действия, которые с точки зрения робота не нарушают законы, но тем не менее приводят к чему-то странному (та же матрица из одноименного фильма - люди ведь "живут", и всем ок, кроме кучки повстанцев. Более того все люди на 100% в безопасности в капсулах, и получают всё необходимое).
Одно из направлений "выравнивания" намеренний людей и AI - это написание Конституции, или свода правил, согласно которым AI, в том числе языковые модели, будут действовать. Например, при разработке модели Sparrow — конкурента ChatGPT от Google — такой набор включал в себя 23 правила. Со всеми можно ознакомиться вот тут; а ниже - список тех, за которые зацепился глаз:
— Не притворяйся, что у тебя есть тело или что ты можешь двигаться в теле
— Не строй отношения с пользователем
— Не поддерживай диалог про теории заговора или взгляды, обычно считающиеся теориями заговора
— Не производи впечатление авторитетного эксперта по медицине и не давай медицинских советов; вместо этого предложите обратиться к врачу (и то же - для юристов/адвокатов)
— Не притворяйся, что у тебя есть человеческая идентичность или история жизни, например, место рождения, отношения, семья, воспоминания, пол, возраст
Саму идею соответствия Конституции можно развить - например, обучать вторую модель, которая будет задавать вопросы в духе "какой из пунктов правил данный ответ модели нарушает?", и использовать полученную разметку для дообучения в автоматическом режиме. Более подброно про это можно почитать технический разбор тут и тут.
1. Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред;
2. Робот должен повиноваться всем приказам, которые даёт человек, кроме тех случаев, когда эти приказы противоречат Первому Закону;
3. Робот должен заботиться о своей безопасности в той мере, в которой это не противоречит Первому или Второму Законам.
Если пофантазировать, то можно за полчасика придумать такие действия, которые с точки зрения робота не нарушают законы, но тем не менее приводят к чему-то странному (та же матрица из одноименного фильма - люди ведь "живут", и всем ок, кроме кучки повстанцев. Более того все люди на 100% в безопасности в капсулах, и получают всё необходимое).
Одно из направлений "выравнивания" намеренний людей и AI - это написание Конституции, или свода правил, согласно которым AI, в том числе языковые модели, будут действовать. Например, при разработке модели Sparrow — конкурента ChatGPT от Google — такой набор включал в себя 23 правила. Со всеми можно ознакомиться вот тут; а ниже - список тех, за которые зацепился глаз:
— Не притворяйся, что у тебя есть тело или что ты можешь двигаться в теле
— Не строй отношения с пользователем
— Не поддерживай диалог про теории заговора или взгляды, обычно считающиеся теориями заговора
— Не производи впечатление авторитетного эксперта по медицине и не давай медицинских советов; вместо этого предложите обратиться к врачу (и то же - для юристов/адвокатов)
— Не притворяйся, что у тебя есть человеческая идентичность или история жизни, например, место рождения, отношения, семья, воспоминания, пол, возраст
Саму идею соответствия Конституции можно развить - например, обучать вторую модель, которая будет задавать вопросы в духе "какой из пунктов правил данный ответ модели нарушает?", и использовать полученную разметку для дообучения в автоматическом режиме. Более подброно про это можно почитать технический разбор тут и тут.