Вся классика в один клик: как выделить из текста события
#philology
Школьники, зависающие на сайтах с краткими содержаниями, многое бы отдали за чудо-ресурс, которому можно было бы отдать художественное произведение и получить взамен описание событий в тексте. Рассказываем, как работает технология извлечения событий из художественных текстов и что она позволяет узнать о литературе уже сейчас.
Художественные произведения — сложный материал для анализа, так как они длинные, структура событий в них сложная и запутанная, а их первостепенная цель — эмоциональное воздействие на читателя.
Сбор и разметка данных
Ученые собрали корпус на основе текстов, публично доступных на ресурсе Project Gutenberg. В корпусе есть и произведения, относящиеся высокому литературному стилю («Улисс» Джеймса Джойса), и более массовая литература («Рваный Дик» Горацио Элджера). Все тексты были опубликованы до 1923 г. и из каждого взяты первые 2000 слов, чтобы уравнять все произведения.
Исследователи решили, что их интересуют события, действительно произошедшие в произведении. При разметке они руководствовались следующими правилами:
1. Полярность: размечались только произошедшие события с положительной полярностью. События-отрицания не размечались как произошедшие.
2. Грамматическое время: размечались события, выраженные глаголами в настоящем или прошедшем времени.
3. Универсальность: все универсальные события, описывающие обыденные действия, которые могли бы выглядеть и быть описаны абсолютно так же в другом произведении (например, собаки лаяли) не размечались.
4. Модальность: размечались только те события, о которых говорилось с уверенностью.
Помимо самих событий, авторы также размечали триггеры к ним — одно слово, которое может описать событие. В корпусе из 210 532 токенов-слов получилось 7 849 событий; результат разметки находится в открытом доступе.
В результате оказалось, что большинство событий можно разбить на четыре категории: разговор, движение, восприятие и обладание. Таблица ниже показывает, как часто встречались слова из этих категорий.
Анализ событий с помощью нейросетей
Из полученного датасета сделали два набора признаковых описаний: в одном из них использовалось векторное описание слов, в другом, помимо векторного описания, были лингвистические признаки: часть речи, информация о контексте, информация о семантике слова, полученная при помощи WordNet, и специфическая информация о конкретном слове (например, если это bare plural — существительное во множественном числе, которое используется в основном для того, чтобы фраза получила универсальное прочтение: «Кошки любят молоко»).
Исследователи определили свою задачу как выявление связи между рассматриваемым словом и событием. Для этого использовались нейронные сети двух различных архитектур — одно- и двунаправленная LSTM и свёрточная нейронная сеть (CNN). В итоге лучшей комбинацией стала двунаправленная LSTM-сеть, в которой векторное описание слов было получено при помощи BERT — модели, которая для вычисления вектора слова также учитывает его контекст. Такая модель выделила события с F-мерой 73.9.
Дальнее чтение корпуса
Ученые решили посмотреть, отличаются ли предсказания сети для текстов разного уровня литературного мастерства.
В среднем в высокохудожественных произведениях оказалось чуть меньше событий (4.6% против 5.5%), которые чуть более подробно описаны: в среднем между двумя найденными событиями более «элитного» текста помещалось 23.4 слова, а в менее элитарных текстах — 19.2 слова.
Также авторы сравнили произведения, разделив их по популярности, но здесь различий не обнаружили: во всех текстах в среднем случалось около 4.5% событий примерно одной длины.
Дарья Максимова
https://sysblok.ru/philology/vsja-klassika-v-odin-klik-kak-vydelit-iz-teksta-sobytija/
#philology
Школьники, зависающие на сайтах с краткими содержаниями, многое бы отдали за чудо-ресурс, которому можно было бы отдать художественное произведение и получить взамен описание событий в тексте. Рассказываем, как работает технология извлечения событий из художественных текстов и что она позволяет узнать о литературе уже сейчас.
Художественные произведения — сложный материал для анализа, так как они длинные, структура событий в них сложная и запутанная, а их первостепенная цель — эмоциональное воздействие на читателя.
Сбор и разметка данных
Ученые собрали корпус на основе текстов, публично доступных на ресурсе Project Gutenberg. В корпусе есть и произведения, относящиеся высокому литературному стилю («Улисс» Джеймса Джойса), и более массовая литература («Рваный Дик» Горацио Элджера). Все тексты были опубликованы до 1923 г. и из каждого взяты первые 2000 слов, чтобы уравнять все произведения.
Исследователи решили, что их интересуют события, действительно произошедшие в произведении. При разметке они руководствовались следующими правилами:
1. Полярность: размечались только произошедшие события с положительной полярностью. События-отрицания не размечались как произошедшие.
2. Грамматическое время: размечались события, выраженные глаголами в настоящем или прошедшем времени.
3. Универсальность: все универсальные события, описывающие обыденные действия, которые могли бы выглядеть и быть описаны абсолютно так же в другом произведении (например, собаки лаяли) не размечались.
4. Модальность: размечались только те события, о которых говорилось с уверенностью.
Помимо самих событий, авторы также размечали триггеры к ним — одно слово, которое может описать событие. В корпусе из 210 532 токенов-слов получилось 7 849 событий; результат разметки находится в открытом доступе.
В результате оказалось, что большинство событий можно разбить на четыре категории: разговор, движение, восприятие и обладание. Таблица ниже показывает, как часто встречались слова из этих категорий.
Анализ событий с помощью нейросетей
Из полученного датасета сделали два набора признаковых описаний: в одном из них использовалось векторное описание слов, в другом, помимо векторного описания, были лингвистические признаки: часть речи, информация о контексте, информация о семантике слова, полученная при помощи WordNet, и специфическая информация о конкретном слове (например, если это bare plural — существительное во множественном числе, которое используется в основном для того, чтобы фраза получила универсальное прочтение: «Кошки любят молоко»).
Исследователи определили свою задачу как выявление связи между рассматриваемым словом и событием. Для этого использовались нейронные сети двух различных архитектур — одно- и двунаправленная LSTM и свёрточная нейронная сеть (CNN). В итоге лучшей комбинацией стала двунаправленная LSTM-сеть, в которой векторное описание слов было получено при помощи BERT — модели, которая для вычисления вектора слова также учитывает его контекст. Такая модель выделила события с F-мерой 73.9.
Дальнее чтение корпуса
Ученые решили посмотреть, отличаются ли предсказания сети для текстов разного уровня литературного мастерства.
В среднем в высокохудожественных произведениях оказалось чуть меньше событий (4.6% против 5.5%), которые чуть более подробно описаны: в среднем между двумя найденными событиями более «элитного» текста помещалось 23.4 слова, а в менее элитарных текстах — 19.2 слова.
Также авторы сравнили произведения, разделив их по популярности, но здесь различий не обнаружили: во всех текстах в среднем случалось около 4.5% событий примерно одной длины.
Дарья Максимова
https://sysblok.ru/philology/vsja-klassika-v-odin-klik-kak-vydelit-iz-teksta-sobytija/