#допдня



Parameter-Efficient Transfer Learning for NLP, Houlsby [Google], 2019



Статья о том, как заменить файнтюнинг толстого берта на обучение маленьких адаптеров между слоями берта. Зачем? Чтобы обучать не сотни миллионов параметров, а сотни тысяч и получать такой же скор.



https://arxiv.org/abs/1902.00751