Yahoo открыли для исследователей набор данных в 110 миллиардов новостей и объёмом в 13.5 TB в распакованном виде http://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75
Главная сложность в том как выкачать эти данные.
В России только Яндекс в очень ограниченном объёме предоставлял данные для РОМИП и не автоматически, а после письма с запросом.
А тут 13.5 террабайт!
#opendata
Главная сложность в том как выкачать эти данные.
В России только Яндекс в очень ограниченном объёме предоставлял данные для РОМИП и не автоматически, а после письма с запросом.
А тут 13.5 террабайт!
#opendata