С сожалением вынужден признать, что формат важен даже при обучении lm_head. Хотя лосс на валидационной выборке был ровно такой же! Но сбс у оригинального формата гораздо лучше.



Новую модель на днях выложу вместо старой, будьте аккуратны из-за изменения формата.



Дальше по плану новые данные и щепотка дедупликации.



P.S. В конце ещё попробую считерить и обучить прямо поверх Suzume.