PWN AI

[AI Safety Fundamentals] Читайте базу 1. Разберемся в терминах.

(кат)

Основная озабоченность в сфере AI Safety по поводу самоулучшающегося ИИ заключается не в том, что он может быть создан «плохими» разработчиками с «плохими» целями, а скорее, в том, чтобы устранить ситуацию, в которой никто не знает, как создать самоулучшающийся ИИ с известными и стабильными предпочтениями.

По стопам отцов-основателей теорий AI Safety, начнем с терминов и тезисов. Я их уже использовала в ранних постах, но чет поняла, что надо бы их ввести адекватно. ~~Мы ж ученые, блэт.~~

Под катом объяснение со ссылками - что такое и как они связаны друг с другом:

Тезис о взрыве интеллекта.

Тезис ортогональности.

Тезис конвергентных инструментальных целях.

Тезис о сложности ценностей.

Тезис о хрупкости ценностей.

Косвенная нормативность.

Large bounded extra difficulty of Friendliness.