
Я тут начал экспериментировать с сэмплерами.
Собрал 700 промптов следующего состава:
- 200 затравок для историй с r/WritingPrompts
- 200 диалогов из PIPPA, обрезанных где-то посередине
- 200 промптов из последней версии gpteacher по roleplay тематике
- 100 промптов про тексты и RP из lmsys-chat-1m
Взял одну из самых популярных 7B моделей: openchat-3.5-0106
Для оценки результатов использую AlpacaEval с CoT GPT-4-Turbo ("alpaca_eval_cot_gpt4_turbo_fn").
Первые результаты на картинке: MinP внезапно действительно тащит.
Покритикуйте сетап, пожалуйста, может я что-то упускаю.
Собрал 700 промптов следующего состава:
- 200 затравок для историй с r/WritingPrompts
- 200 диалогов из PIPPA, обрезанных где-то посередине
- 200 промптов из последней версии gpteacher по roleplay тематике
- 100 промптов про тексты и RP из lmsys-chat-1m
Взял одну из самых популярных 7B моделей: openchat-3.5-0106
Для оценки результатов использую AlpacaEval с CoT GPT-4-Turbo ("alpaca_eval_cot_gpt4_turbo_fn").
Первые результаты на картинке: MinP внезапно действительно тащит.
Покритикуйте сетап, пожалуйста, может я что-то упускаю.