😎 Оказывается, у нейросети Claude есть характер



Исследователи Anthropic рассказали, что Claude 3 стала первой моделью, которую они обучали характеру. В целом, они хотели, чтобы поведение чат-бота соответствовало поведению хорошего человека. В частности, модель обучали проявлениям любопытства, широты взглядов и вдумчивости.



Однако разработчики также не хотели, чтобы люди, взаимодействующие с моделью, воспринимали её как источник истины или думали, что она вовсе непредвзята. Последнее попросту не правда, ведь нейросеть обучалась на текстах, созданных человеком, которые несут в себе наши стереотипы.



Поэтому исследователи решили делать модель «честной» относительно любых взглядов, к которым она может «склоняться», после обучения.



🪅Во время обучения разработчики также столкнулись с любопытной проблемой: как Claude должен отвечать на вопросы типа «у тебя есть разум?». Можно было бы просто запрограммировать модель всегда отвечать «Я — ваш помощник и не обладаю сознанием». Однако авторы решили позволить Claude самостоятельно исследовать этот вопрос.