Yahoo открыли для исследователей набор данных в 110 миллиардов новостей и объёмом в 13.5 TB в распакованном виде http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75



Главная сложность в том как выкачать эти данные.



В России только Яндекс в очень ограниченном объёме предоставлял данные для РОМИП и не автоматически, а после письма с запросом.



А тут 13.5 террабайт!



#opendata