Шпионаж и слежка 400 лет назад
Спецслужбы собирают данные огромного количества людей и делают выводы на основе не только содержания, но и метаданных. А как найти шпиона по метаданным среди 20000 корреспондентов архива писем эпохи Тюдоров, если вам лень читать архив вручную?
Письма в архиве структурированы в xml формате. Учёные отделили только те, у которых заполнены метаданные «автор» и «получатель». Многие адресаты появлялись под несколькими именами, в течение жизни накапливая титулы. Потребовалась восемнадцать месяцев, чтобы разобрать, кто есть кто. Изначальный архив содержал 37101 уникальное имя корреспондентов, в процессе выяснилось, что на самом деле переписывалось только 20656 человек.
Для поиска аномалий среди корреспондентов использовался сетевой анализ. Наиболее полезными оказались метрики степень (то есть количество людей, которые получали или отправляли письма данному человеку) и промежуточность (сколько кратчайших путей от узла к узлу проходит через данный узел). О метриках сетевого анализа мы подробно писали тут.
Наиболее интересным для исследователей оказался график, где степень узла ставится в зависимость от его промежуточности. То есть шпионов выдаёт то, что через них курсировала информация от слишком большого числа людей. Среди попавших в список лиц — миссионеры, священники, дипломаты и послы.
https://sysblok.ru/history/shpionazh-i-slezhka-400-let-nazad-i-pochemu-jeto-vazhno-znat-segodnja/
Спецслужбы собирают данные огромного количества людей и делают выводы на основе не только содержания, но и метаданных. А как найти шпиона по метаданным среди 20000 корреспондентов архива писем эпохи Тюдоров, если вам лень читать архив вручную?
Письма в архиве структурированы в xml формате. Учёные отделили только те, у которых заполнены метаданные «автор» и «получатель». Многие адресаты появлялись под несколькими именами, в течение жизни накапливая титулы. Потребовалась восемнадцать месяцев, чтобы разобрать, кто есть кто. Изначальный архив содержал 37101 уникальное имя корреспондентов, в процессе выяснилось, что на самом деле переписывалось только 20656 человек.
Для поиска аномалий среди корреспондентов использовался сетевой анализ. Наиболее полезными оказались метрики степень (то есть количество людей, которые получали или отправляли письма данному человеку) и промежуточность (сколько кратчайших путей от узла к узлу проходит через данный узел). О метриках сетевого анализа мы подробно писали тут.
Наиболее интересным для исследователей оказался график, где степень узла ставится в зависимость от его промежуточности. То есть шпионов выдаёт то, что через них курсировала информация от слишком большого числа людей. Среди попавших в список лиц — миссионеры, священники, дипломаты и послы.
https://sysblok.ru/history/shpionazh-i-slezhka-400-let-nazad-i-pochemu-jeto-vazhno-znat-segodnja/