Исследователи Anthropic рассказали, что Claude 3 стала первой моделью, которую они обучали характеру. В целом, они хотели, чтобы поведение чат-бота соответствовало поведению хорошего человека. В частности, модель обучали проявлениям любопытства, широты взглядов и вдумчивости.
Однако разработчики также не хотели, чтобы люди, взаимодействующие с моделью, воспринимали её как источник истины или думали, что она вовсе непредвзята. Последнее попросту не правда, ведь нейросеть обучалась на текстах, созданных человеком, которые несут в себе наши стереотипы.
Поэтому исследователи решили делать модель «честной» относительно любых взглядов, к которым она может «склоняться», после обучения.