
🎤Ruder's tutorial insights
Сегодняшний тьюториал Себастьяна Рудера был посвящен "Modular and Parameter-Efficient Fine-Tuning for NLP Models" - эффективному файнтьюну языковых моделей, which is a hot topic these days!
Думаю, не для кого не секрет, что языковые модели стремительно растут. Параметров в них становится все больше, а файнтьюнить такие модели целиком, как принято в парадигме transfer learning, все сложнее. У подходов in-context и prompt-based learning тоже есть свои недостатки.
Поэтому возникает идея вернуться обратно к частичному дообучению языковых моделей (parameter-efficient
fine-tuning) - подходу, который в последнее время находился немного на обочине.
💡Идея проста: файнтьюнить не все параметры модели, а лишь их определенную часть или, например, по-умному их прунить, тем самым повышая их эффективность, не только при дообучении, но и на этапе inference. Оказывается, например, при правильном прунинге attention голов BERT'а качество может даже возрасти.
✨На тьюториале Рудер рассматривал разные подходы к эффективному файнтьюну. Если вкратце, то все подходы он разделил на три группы:
1️⃣ Parameter composition
2️⃣ Input composition
3️⃣ Function composition
См. поясняющую схему, а детали можно найти в полном тьюториале.
👍Попробовать реализация разных подходы эффективного файнтьюна есть в AdaterHub - библиотека интегерирована с HuggingFace и поддерживает широкий набор трансформерных HF-моделей.
#mashkka_dubai #новостисполей #emnlp #emnlp2022
Сегодняшний тьюториал Себастьяна Рудера был посвящен "Modular and Parameter-Efficient Fine-Tuning for NLP Models" - эффективному файнтьюну языковых моделей, which is a hot topic these days!
Думаю, не для кого не секрет, что языковые модели стремительно растут. Параметров в них становится все больше, а файнтьюнить такие модели целиком, как принято в парадигме transfer learning, все сложнее. У подходов in-context и prompt-based learning тоже есть свои недостатки.
Поэтому возникает идея вернуться обратно к частичному дообучению языковых моделей (parameter-efficient
fine-tuning) - подходу, который в последнее время находился немного на обочине.
💡Идея проста: файнтьюнить не все параметры модели, а лишь их определенную часть или, например, по-умному их прунить, тем самым повышая их эффективность, не только при дообучении, но и на этапе inference. Оказывается, например, при правильном прунинге attention голов BERT'а качество может даже возрасти.
✨На тьюториале Рудер рассматривал разные подходы к эффективному файнтьюну. Если вкратце, то все подходы он разделил на три группы:
1️⃣ Parameter composition
2️⃣ Input composition
3️⃣ Function composition
См. поясняющую схему, а детали можно найти в полном тьюториале.
👍Попробовать реализация разных подходы эффективного файнтьюна есть в AdaterHub - библиотека интегерирована с HuggingFace и поддерживает широкий набор трансформерных HF-моделей.
#mashkka_dubai #новостисполей #emnlp #emnlp2022