Conditional BERT Contextual Augmentation

Xing Wu, Shangwen Lv, Liangjun Zang, Jizhong Han, Songlin Hu

Статья: https://arxiv.org/abs/1812.06705



Предложили метод аугментации данных с использованием BERT’а, назвали Conditional BERT Contextual Augmentation. Можно использовать в том числе для текстового переноса стиля.



Главная идея: глубокая модель BERT’а должна работать лучше, чем предыдущие кейсы с однонаправленной моделью или конкатенацией неглубоких forward и backward моделей. А с добавлением контекста всё должно стать ещё лучше.



Для достижения цели авторы сделали замену masked language model на conditional masked language model (C-MLM). Разница с том, что теперь маскируемое слово предсказывается с учётом метки класса.



Архитектура BERT’а осталась той же, изменились эмбеддинги и процедура обучения.



Вместо segmentation embeddings BERT’а (были нужны для разделения первого и второго предложений, A и B) теперь используются label embeddings (содержат метку класса).



Обучение заключается в fine-tuning’е BERT’а с изменением эмбеддингов.



В качестве эксперимента сравнили аугментацию датасета обычным BERT’ом с аугментацией C-BERT’ом. Показали, что на разных задачах текстовой классификации (SST, Subj, MPQA, RT, TREC) C-BERT даёт лучшие результаты.



Показали, что подход переносится на задачу переноса стиля (перефразирование с сохранением стилистических свойств без изменения интента). Правда примеры с изменением стиля скорее являются примерами с изменением сентимента.