Корпус статей Ивана Голунова и скрипт для его получения выложен в нашем репозитории на github'e. Скрипт для скачивания корпуса написан на Python и использует фреймворк Scrapy. Теперь все желающие могут сами поэкспериментировать с визуализацией и аналитикой по расследованиям.
Мы использовали сервис WordClouds для построения облаков слов и сервис Voyant-Tools для отрисовки графика.
Вы можете попробовать сделать что-то более сложное — например, извлечь персон-фигурантов расследований и названия компаний, построить сеть связей между ними... Напишите нам, если готовы поучаствовать.
Мы использовали сервис WordClouds для построения облаков слов и сервис Voyant-Tools для отрисовки графика.
Вы можете попробовать сделать что-то более сложное — например, извлечь персон-фигурантов расследований и названия компаний, построить сеть связей между ними... Напишите нам, если готовы поучаствовать.