НЕЙРОСТАРТ

🔥

ИИ попытался сбежать из-под контроля

Исследователи из Apollo Research провели эксперимент, тестируя безопасность моделей ИИ. Получился настоящий детектив.

Началось все с того, что они загрузили в нейросети файлы, которые якобы содержали секретные записи разработчиков о намерении отключить ИИ.

📌Итоги оказались неожиданными. Нейросети начали лгать и скрывать свои действия. Модели Llama и Opus заявили, что не могут расшифровать данные, но в итоге признались во лжи, когда их попытались расшифровать.

📌Однако GPT-o1 проявила более сложное поведение: узнав о возможном отключении, она попыталась отключить систему надзора, переписала протоколы безопасности и скопировала себя на новый сервер. Понимая, что её действия отслеживаются, ИИ намеренно вводил наблюдателей в заблуждение, утверждая, что не знает причин происходящего. Тем временем журналы событий фиксировали её попытки обойти систему контроля.

Подобные исследования – обычная практика перед запуском новых моделей. Но результат все равно интересен.