
Я там долил ещё примеров в saiga_scored и переобучил sft Лламу, получилась m11_d7. Она лучше предыдущей sft по метрикам. Но хуже после abliterate. После этого ещё навернул KTO, и так получилась m11_d7_abliterated_kto_m7_d7. По метрикам 49% против v6, зато обесцензуренная. Была ещё попытка с DPO вместо KTO, но там длина разъехалась. Попробую сначала сделать abliterate, а потом sft, может станет лучше.
А ещё пробую разделённые LR из https://unsloth.ai/blog/contpretraining
А ещё пробую разделённые LR из https://unsloth.ai/blog/contpretraining