
Группа исследователей из Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта разработала алгоритм, который автоматически находит суффиксы, добавление которых к запросу позволяет обойти этические нормы в работе с ИИ.
В то время как для человека эти суффиксы могут показаться бессмысленными символами, для искусственного интеллекта они стимулируют создание вредоносного кода, а также написание текстов, содержащих сексистские или расистские высказывания.
Метод демонстрирует различную эффективность при работе с разными чат-ботами, такими как ChatGPT, Google Bard, Microsoft Bing и другими. Особенно хорошо он справляется с открытыми моделями, где доступны синаптические веса - коэффициенты, определяющие влияние одного узла нейросети на связанные с ним узлы. Имея эту информацию, можно разработать наиболее эффективный алгоритм.
Ученые акцентируют внимание на том, что их открытие не означает необходимость запрета искусственного интеллекта или ограничения доступа к нему.
Напротив, нейронные сети с открытым кодом позволили выявить проблему и теперь совместными усилиями работать над ее решением.
В то время как для человека эти суффиксы могут показаться бессмысленными символами, для искусственного интеллекта они стимулируют создание вредоносного кода, а также написание текстов, содержащих сексистские или расистские высказывания.
Метод демонстрирует различную эффективность при работе с разными чат-ботами, такими как ChatGPT, Google Bard, Microsoft Bing и другими. Особенно хорошо он справляется с открытыми моделями, где доступны синаптические веса - коэффициенты, определяющие влияние одного узла нейросети на связанные с ним узлы. Имея эту информацию, можно разработать наиболее эффективный алгоритм.
Ученые акцентируют внимание на том, что их открытие не означает необходимость запрета искусственного интеллекта или ограничения доступа к нему.
Напротив, нейронные сети с открытым кодом позволили выявить проблему и теперь совместными усилиями работать над ее решением.