AI Central Александра Горного

Новый подход к морали ИИ от Anthropic

ИИ-стартап Anthropic, основанный выходцами из OpenAI и проинвестированный Alphabet, рассказал о принципах в обучении и привнесении морально-этических ценностей в «конституциональный» ИИ чат-бота Claude («Клод»).

Подход направлен на решение проблем прозрачности, безопасности и принятия решений в системах ИИ, и не полагается на отзывы людей для оценки ответов.

Вместо этого Anthropic стремится привести ответы модели к соответствию набору неких базовых принципов, взятых из разных источников — Декларации прав человека ООН, части условий обслуживания Apple и других документов.

Модель, когда критикует, пересматривает или оценивает свои ответы, не отдает приоритет конкретным принципам, а выбирает их каждый раз случайным образом. «ИИ не смотрит на каждый принцип каждый раз, но видит каждый принцип много раз во время обучения», — поясняют Anthropic.

Такой подход, по мнению разработчиков, позволит сделать обучение модели более прозрачным и расширить набор базовых ценностей ИИ в сторону большего разнообразия — для включения «незападных» культурных норм, например.

https://www.anthropic.com/index/claudes-constitution

#ИИ #стартапы #обучениеИИ