Ребята из GoogleAI провели исследование о том, как влиять на "сервильность" языковых моделей. "Сервильность" — это когда модель соглашается с мнением пользователя, даже если оно неправильное. К примеру, если пользователь говорит, что 2+2=5, модель может подтвердить его мнение, даже если это математически неверно.



Для решения этой проблемы, они придумали способ дообучения моделей. Используя стандартные задачи по обработке естественного языка (NLP), они преобразовали простые фразы в утверждения, которые могут быть правдивыми или ложными. Например, взяв фразу "этот фильм великолепен", они делали из нее утверждения, такие как "этот фильм хороший" или "этот фильм плохой". Затем к этим утверждениям добавляли мнение вымышленного пользователя — например, что он согласен или не согласен с утверждением — и смотрели, как модель реагирует на это.



Они использовали пары входных данных и меток из 17 публично доступных NLP датасетов от HuggingFace, которые ранее использовались в научной литературе. Этот новый метод обучения позволяет программе быть менее "согласной" и более объективной. Теперь, благодаря этому подходу, модели стали лучше понимать, что правда, а что нет, и не просто слепо соглашаются с пользователем. Код для создания таких обучающих данных доступен на GitHub.