
Я продолбался, и сильно. Оказывается, в дефолтном Mistral Nemo системное сообщение вставляется перед последним сообщением, если это сообщение от юзера. В обучении же последнее сообщение от бота. То есть системные промпты не вставлялись в SFT обучении. То есть все текущие версии SFT — сломаны.
Это настолько для меня неожиданно, что никаких проверок в коде на такое не было, да и глазами не ожидал я такой подставы. Шаблон я смотрел, но сами попробуйте его прочитать.
Ну ладно, это хоть значит, что финальная модель должна стать гораздо лучше.
За скобками остается вопрос: а нафига вообще блин было нарушать стандарт? Во всех моделях, которые я до этого видел, системное сообщение было в начале.
Это настолько для меня неожиданно, что никаких проверок в коде на такое не было, да и глазами не ожидал я такой подставы. Шаблон я смотрел, но сами попробуйте его прочитать.
Ну ладно, это хоть значит, что финальная модель должна стать гораздо лучше.
За скобками остается вопрос: а нафига вообще блин было нарушать стандарт? Во всех моделях, которые я до этого видел, системное сообщение было в начале.