Mashkka про Data Science

🎤Ruder's tutorial insights

Сегодняшний тьюториал Себастьяна Рудера был посвящен "Modular and Parameter-Efficient Fine-Tuning for NLP Models" - эффективному файнтьюну языковых моделей, which is a hot topic these days!

Думаю, не для кого не секрет, что языковые модели стремительно растут. Параметров в них становится все больше, а файнтьюнить такие модели целиком, как принято в парадигме transfer learning, все сложнее. У подходов in-context и prompt-based learning тоже есть свои недостатки.

Поэтому возникает идея вернуться обратно к частичному дообучению языковых моделей (parameter-efficient

fine-tuning) - подходу, который в последнее время находился немного на обочине.

💡Идея проста: файнтьюнить не все параметры модели, а лишь их определенную часть или, например, по-умному их прунить, тем самым повышая их эффективность, не только при дообучении, но и на этапе inference. Оказывается, например, при правильном прунинге attention голов BERT'а качество может даже возрасти.

✨На тьюториале Рудер рассматривал разные подходы к эффективному файнтьюну. Если вкратце, то все подходы он разделил на три группы:

1️⃣ Parameter composition

2️⃣ Input composition

3️⃣ Function composition

См. поясняющую схему, а детали можно найти в полном тьюториале.

👍Попробовать реализация разных подходы эффективного файнтьюна есть в AdaterHub - библиотека интегерирована с HuggingFace и поддерживает широкий набор трансформерных HF-моделей.

#mashkka_dubai #новостисполей #emnlp #emnlp2022