DL in NLP

#допдня

Parameter-Efficient Transfer Learning for NLP, Houlsby [Google], 2019

Статья о том, как заменить файнтюнинг толстого берта на обучение маленьких адаптеров между слоями берта. Зачем? Чтобы обучать не сотни миллионов параметров, а сотни тысяч и получать такой же скор.

https://arxiv.org/abs/1902.00751