Maximal Update Parametrization



Майкрософт выпустил статью о том, как можно перенести параметры с маленькой модели на большую, при этом получить результат лучше, чем просто тренируя большую модель.



Статья

GitHub