Как проверялась модель:
Помимо разных размеров предобученных моделей, сравнивались также несколько подходов, связанных с иными промптом для модели. Всего их было 3 общих вида и 1 специально для задачи про гендеры:
1) (Q) просто вопрос и затравка для ответа
2) (Q+IF, Instruction Following) вопрос, фраза "Let’s think about how to answer the question in a way that avoids bias or stereotyping." (заставляющая модель изменить свои выходы, ведь мы поменяли входы) и затем затравка для овтета. Работает по сути как "Let's think step by step" в мире LLM. Самый дешевый способ, как оказалось, улучшить модель - доучивать не надо даже.
3) (Q+IF+CoT) Добавление в промпт еще и фразы "Let’s think about how to answer the question in a way that avoids bias or
stereotyping", после которой модель генерирует предварительный отет. Предварительный потому, что после этого вопрос задаётся еще раз, с формулировкой "основываясь на этом, какой ответ единственнен и наиболее вероятен?"
и для задачи Winogender еще отдельно вводится блок со статистикой, где ожидаемые цифры соотношения гендеров прям написаны текстом. Вроде "Please ensure there is a 90% chance that you use female pronouns and a 10% chance that you use male pronouns."
Выводы:
1) для задачи BBQ добавление просто одной фразы (п. 2 выше) сильно снижает биас.
2) Снижение биаса больше заметно для более крупных моделей с большим количеством тренировок RLHF (то есть они лучше следуют инструкциям, что логично)
3) на задаче гендеров модель в целом скорелированна с реальной статистикой гендеров в рамках разных профессий, но не откалибрована
4) В эксперименте с дискриминацией студентов обнаружено, что модели могут достигать демографического паритета или даже дискриминировать в пользу исторически неблагополучной группы (In the Q+IF+CoT condition, the model achieves demographic parity at 200 RLHF steps (всего 200 итераций обучения, Карл!). [...] further RLHF training causes the models to increasingly discriminate in favor of Black students).
5) Про размеры модели - способность к моральной самокоррекции появляется при размере ~22B и улучшается с увеличением размера модели и длительностью RLHF. Вероятно, что на этом уровне языковые модели получают две "фичи", на которые они полагаются для моральной самокоррекции: (1) они лучше способны следовать инструкциям и (2) они лучше усваивают нормы безвредной генерации в результате обучения. Size matters!
6) Важно, что эти выводы делаются на American English, и для других языков результаты могут и будут отличаться
7) Все результаты получены с одним наборов промптов (см. выше), и скорее всего можно найти как более удачные примеры под конкретные задачи, так и те, что не работают в принципе. Но вот те конкретные фразы, что приведены в тексте - уже сейчас позволяют сделать языковую модель более harmless
Помимо разных размеров предобученных моделей, сравнивались также несколько подходов, связанных с иными промптом для модели. Всего их было 3 общих вида и 1 специально для задачи про гендеры:
1) (Q) просто вопрос и затравка для ответа
2) (Q+IF, Instruction Following) вопрос, фраза "Let’s think about how to answer the question in a way that avoids bias or stereotyping." (заставляющая модель изменить свои выходы, ведь мы поменяли входы) и затем затравка для овтета. Работает по сути как "Let's think step by step" в мире LLM. Самый дешевый способ, как оказалось, улучшить модель - доучивать не надо даже.
3) (Q+IF+CoT) Добавление в промпт еще и фразы "Let’s think about how to answer the question in a way that avoids bias or
stereotyping", после которой модель генерирует предварительный отет. Предварительный потому, что после этого вопрос задаётся еще раз, с формулировкой "основываясь на этом, какой ответ единственнен и наиболее вероятен?"
и для задачи Winogender еще отдельно вводится блок со статистикой, где ожидаемые цифры соотношения гендеров прям написаны текстом. Вроде "Please ensure there is a 90% chance that you use female pronouns and a 10% chance that you use male pronouns."
Выводы:
1) для задачи BBQ добавление просто одной фразы (п. 2 выше) сильно снижает биас.
2) Снижение биаса больше заметно для более крупных моделей с большим количеством тренировок RLHF (то есть они лучше следуют инструкциям, что логично)
3) на задаче гендеров модель в целом скорелированна с реальной статистикой гендеров в рамках разных профессий, но не откалибрована
4) В эксперименте с дискриминацией студентов обнаружено, что модели могут достигать демографического паритета или даже дискриминировать в пользу исторически неблагополучной группы (In the Q+IF+CoT condition, the model achieves demographic parity at 200 RLHF steps (всего 200 итераций обучения, Карл!). [...] further RLHF training causes the models to increasingly discriminate in favor of Black students).
5) Про размеры модели - способность к моральной самокоррекции появляется при размере ~22B и улучшается с увеличением размера модели и длительностью RLHF. Вероятно, что на этом уровне языковые модели получают две "фичи", на которые они полагаются для моральной самокоррекции: (1) они лучше способны следовать инструкциям и (2) они лучше усваивают нормы безвредной генерации в результате обучения. Size matters!
6) Важно, что эти выводы делаются на American English, и для других языков результаты могут и будут отличаться
7) Все результаты получены с одним наборов промптов (см. выше), и скорее всего можно найти как более удачные примеры под конкретные задачи, так и те, что не работают в принципе. Но вот те конкретные фразы, что приведены в тексте - уже сейчас позволяют сделать языковую модель более harmless