Stable Diffusion & СhatGPT & SDXL — Новости

Группа исследователей из Университета Карнеги — Меллона и Центра безопасности искусственного интеллекта разработала алгоритм, который автоматически находит суффиксы, добавление которых к запросу позволяет обойти этические нормы в работе с ИИ.

В то время как для человека эти суффиксы могут показаться бессмысленными символами, для искусственного интеллекта они стимулируют создание вредоносного кода, а также написание текстов, содержащих сексистские или расистские высказывания.

Метод демонстрирует различную эффективность при работе с разными чат-ботами, такими как ChatGPT, Google Bard, Microsoft Bing и другими. Особенно хорошо он справляется с открытыми моделями, где доступны синаптические веса - коэффициенты, определяющие влияние одного узла нейросети на связанные с ним узлы. Имея эту информацию, можно разработать наиболее эффективный алгоритм.

Ученые акцентируют внимание на том, что их открытие не означает необходимость запрета искусственного интеллекта или ограничения доступа к нему.

Напротив, нейронные сети с открытым кодом позволили выявить проблему и теперь совместными усилиями работать над ее решением.