Корпус статей Ивана Голунова и скрипт для его получения выложен в нашем репозитории на github'e. Скрипт для скачивания корпуса написан на Python и использует фреймворк Scrapy. Теперь все желающие могут сами поэкспериментировать с визуализацией и аналитикой по расследованиям.



Мы использовали сервис WordClouds для построения облаков слов и сервис Voyant-Tools для отрисовки графика.



Вы можете попробовать сделать что-то более сложное — например, извлечь персон-фигурантов расследований и названия компаний, построить сеть связей между ними... Напишите нам, если готовы поучаствовать.