ТГХаб
Каналы
Градиентное погружение
Maximal Update Parametrization
Майкрософт выпустил статью о том, как можно перенести параметры с маленькой модели на большую, при этом получить результат лучше, чем просто тренируя большую модель.
Статья
GitHub