Старший Авгур

Я тут начал экспериментировать с сэмплерами.

Собрал 700 промптов следующего состава:

- 200 затравок для историй с r/WritingPrompts

- 200 диалогов из PIPPA, обрезанных где-то посередине

- 200 промптов из последней версии gpteacher по roleplay тематике

- 100 промптов про тексты и RP из lmsys-chat-1m

Взял одну из самых популярных 7B моделей: openchat-3.5-0106

Для оценки результатов использую AlpacaEval с CoT GPT-4-Turbo ("alpaca_eval_cot_gpt4_turbo_fn").

Первые результаты на картинке: MinP внезапно действительно тащит.

Покритикуйте сетап, пожалуйста, может я что-то упускаю.