Conditional BERT Contextual Augmentation
Xing Wu, Shangwen Lv, Liangjun Zang, Jizhong Han, Songlin Hu
Статья: https://arxiv.org/abs/1812.06705
Предложили метод аугментации данных с использованием BERT’а, назвали Conditional BERT Contextual Augmentation. Можно использовать в том числе для текстового переноса стиля.
Главная идея: глубокая модель BERT’а должна работать лучше, чем предыдущие кейсы с однонаправленной моделью или конкатенацией неглубоких forward и backward моделей. А с добавлением контекста всё должно стать ещё лучше.
Для достижения цели авторы сделали замену masked language model на conditional masked language model (C-MLM). Разница с том, что теперь маскируемое слово предсказывается с учётом метки класса.
Архитектура BERT’а осталась той же, изменились эмбеддинги и процедура обучения.
Вместо segmentation embeddings BERT’а (были нужны для разделения первого и второго предложений, A и B) теперь используются label embeddings (содержат метку класса).
Обучение заключается в fine-tuning’е BERT’а с изменением эмбеддингов.
В качестве эксперимента сравнили аугментацию датасета обычным BERT’ом с аугментацией C-BERT’ом. Показали, что на разных задачах текстовой классификации (SST, Subj, MPQA, RT, TREC) C-BERT даёт лучшие результаты.
Показали, что подход переносится на задачу переноса стиля (перефразирование с сохранением стилистических свойств без изменения интента). Правда примеры с изменением стиля скорее являются примерами с изменением сентимента.
Xing Wu, Shangwen Lv, Liangjun Zang, Jizhong Han, Songlin Hu
Статья: https://arxiv.org/abs/1812.06705
Предложили метод аугментации данных с использованием BERT’а, назвали Conditional BERT Contextual Augmentation. Можно использовать в том числе для текстового переноса стиля.
Главная идея: глубокая модель BERT’а должна работать лучше, чем предыдущие кейсы с однонаправленной моделью или конкатенацией неглубоких forward и backward моделей. А с добавлением контекста всё должно стать ещё лучше.
Для достижения цели авторы сделали замену masked language model на conditional masked language model (C-MLM). Разница с том, что теперь маскируемое слово предсказывается с учётом метки класса.
Архитектура BERT’а осталась той же, изменились эмбеддинги и процедура обучения.
Вместо segmentation embeddings BERT’а (были нужны для разделения первого и второго предложений, A и B) теперь используются label embeddings (содержат метку класса).
Обучение заключается в fine-tuning’е BERT’а с изменением эмбеддингов.
В качестве эксперимента сравнили аугментацию датасета обычным BERT’ом с аугментацией C-BERT’ом. Показали, что на разных задачах текстовой классификации (SST, Subj, MPQA, RT, TREC) C-BERT даёт лучшие результаты.
Показали, что подход переносится на задачу переноса стиля (перефразирование с сохранением стилистических свойств без изменения интента). Правда примеры с изменением стиля скорее являются примерами с изменением сентимента.