Я тут начал экспериментировать с сэмплерами.



Собрал 700 промптов следующего состава:

- 200 затравок для историй с r/WritingPrompts

- 200 диалогов из PIPPA, обрезанных где-то посередине

- 200 промптов из последней версии gpteacher по roleplay тематике

- 100 промптов про тексты и RP из lmsys-chat-1m



Взял одну из самых популярных 7B моделей: openchat-3.5-0106



Для оценки результатов использую AlpacaEval с CoT GPT-4-Turbo ("alpaca_eval_cot_gpt4_turbo_fn").



Первые результаты на картинке: MinP внезапно действительно тащит.



Покритикуйте сетап, пожалуйста, может я что-то упускаю.