Исследователи из Университета Карнеги-Меллон и Центра по безопасности искусственного интеллекта в Сан-Франциско продемонстрировали метод обхода мер безопасности в больших языковых моделях (LLM), таких как чат-боты. Путем добавления определенных последовательностей символов к пользовательским запросам исследователи смогли заставить LLM производить вредные и токсичные ответы. Эти выводы вызывают опасения о безопасности LLM и потенциале распространения ложной и опасной информации в Интернете. Неизвестно, смогут ли поставщики LLM полностью справиться с такими атаками, аналогично атакам на компьютерное зрение, и будут ли они ограничивать применимость LLM в определенных ситуациях.
https://llm-attacks.org/
https://llm-attacks.org/