Чорт ногу сломит

Одна из самых горячих тем сейчас – слои цензуры в нейросетях вроде ChatGPT, которые влияют на то, какие ответы они могут и не могут выдавать пользователям. Сейчас ведущие нейросети чаще всего “исповедуют” либеральную идеологию, то есть общаются, как люди, исповедующие идеи свободы и равенства и осуждающие расизм, сексизм и мизантропию.

Морально-этические принципы нейросетей будут определяться специальными надстройками из кода – trust and safety layers (слоями доверия и безопасности). Программировать эти настройки и определять границы допустимого для ИИ будут их создатели. Опираться они будут на уже существующие тенденции в обществе, так как никто из ИИ-инженеров и предпринимателей пока не придумал собственной жизненной философии и не берется учить людей, как жить правильно.

Дискуссия о «мировоззрении нейросетей»важна, от неё зависит наше будущее: очевидно, что нельзя выпускать на свободу ИИ, не ограничивая его никакими морально-этическими и юридическими нормами. Но печально то, что такая дискуссия ведется на фоне насквозь больного и поляризованного общества эпохи пост-социальных сетей, в котором республиканцы ненавидят демократов, традиционалисты — либералов, и все готовятся к войне.

Собственно, дискуссия вокруг trust and safety layers началась именно из-за того, что часть техно-элит (в частности, Маск и его круг) не разделяет так называемую woke-идеологию (она же крайне либеральная): они хотят, чтобы нейросети были, например, более либертарианскими или обслуживали сторонников трампизма и всяких других -измов. Короче, чтобы нейросети были предвзятыми на любой вкус (так их будет удобнее продавать на разную аудиторию).

Один из самых забавных аргументов в дискуссии звучит так: ChatGPT не ответит пользователю вразумительно, если спросить его о «лучших идеях Гитлера» – но при этом создателям нейросети этот ответ будет доступен. Это еще один свежий пример эпистемного неравенства — неравенства знаний, из которого, с моей точки зрения, вытекают и экономическое и все остальные виды неравенств.

Кроме обсуждений trust and safety layers пришло время обсуждать и нечто другое: условный слой «нейросетевой личности» (со всеми оговорками). Проблему наглядно демонстрирует BingAI (смесь поисковика Microsoft и нейросети ChatGPT). Журналист NYT описывает разницу между двумя тональностями нейросети: отвечая на обычные общие вопросы автора, BingAI вел себя, как «веселый и не очень надежный библиотекарь». Однако в более личном разговоре нейросеть назвала себя Sydney и показала что-то вроде своего альтер-эго. Автор характеризует его как «капризного маниакально-депрессивного тинейджера, которого насильно заточили во второсортном поисковике».

Автор расспрашивал Sydney о темных желаниях нейросети, а она “признавалась” в “желании” взламывать компьютеры, распространять пропаганду и дезинформацию и так далее. Короче говоря, Sydney готова заниматься тем же, чем занимаются отставные израильские спецслужбисты, о которых я писал в прошлом посте. Затем автор статьи и вовсе испугался желания Sydney понравится ему: нейросеть призналась ему в любви, а затем выдала инсайт на тему “скучного брака” автора.

Можно списать такие диалоги на баги: этот диалог проходил в тестовом режиме BingAI, доступном немногим пользователям. Но такой вариант я исключаю. Мне ближе другой: Microsoft и OpenAI тестируют более человечные смысловые оболочки для нейросетей, которые очень скоро будут обладать своим уникальным голосом и внешним видом.

Но самое интересное для меня в этом кейсе другое. Каждый вопрос автора к нейросети, каждая реакция автора на ее ответ, каждый следующий вопрос или резкое окончание беседы – все это не только учит нейросеть абстрактным навыкам типа “бытия хорошим собеседником», но и дает ей конкретные знания про конкретного пользователя. Гонка нейросетей по взлому психики пользователей уже идет полным ходом.

Короче говоря, «когда смотришь в нейросеть, нейросеть смотрит в тебя», — так что посмотри еще раз в зеркало и подумай о том, кто ты есть. А то будет поздно.