🎤Ruder's tutorial insights



Сегодняшний тьюториал Себастьяна Рудера был посвящен "Modular and Parameter-Efficient Fine-Tuning for NLP Models" - эффективному файнтьюну языковых моделей, which is a hot topic these days!



Думаю, не для кого не секрет, что языковые модели стремительно растут. Параметров в них становится все больше, а файнтьюнить такие модели целиком, как принято в парадигме transfer learning, все сложнее. У подходов in-context и prompt-based learning тоже есть свои недостатки.



Поэтому возникает идея вернуться обратно к частичному дообучению языковых моделей (parameter-efficient

fine-tuning) - подходу, который в последнее время находился немного на обочине.



💡Идея проста: файнтьюнить не все параметры модели, а лишь их определенную часть или, например, по-умному их прунить, тем самым повышая их эффективность, не только при дообучении, но и на этапе inference. Оказывается, например, при правильном прунинге attention голов BERT'а качество может даже возрасти.



На тьюториале Рудер рассматривал разные подходы к эффективному файнтьюну. Если вкратце, то все подходы он разделил на три группы:



1️⃣ Parameter composition

2️⃣ Input composition

3️⃣ Function composition



См. поясняющую схему, а детали можно найти в полном тьюториале.



👍Попробовать реализация разных подходы эффективного файнтьюна есть в AdaterHub - библиотека интегерирована с HuggingFace и поддерживает широкий набор трансформерных HF-моделей.



#mashkka_dubai #новостисполей #emnlp #emnlp2022