Diffbot построили систему, которая читает код сайтов, анализирует текст, классифицирует изображения и собирает их в то, что, по их словам, является крупнейшим в мире графом знаний интернета, согласно MIT Technology Review.



Веб-кроулер Diffbot перестраивает граф каждые четыре-пять дней, добавляя примерно 150 миллионов новых ассоциаций субъект-глагол-объект ежемесячно. Этот граф охватывает более 10 миллиардов объектов — людей, предприятия, продукты, местоположение и т. д. — и триллион бит информации об этих объектах.



Бот использует распознавание изображений для классификации контента по 20 категориям, таким как новости, обсуждения и фото. Он анализирует любой текст, чтобы найти утверждения, состоящие из субъекта, глагола и объекта, и сохраняет их отношения. На данный момент граф охватывает субъект-глагол-объектные ассоциации из 98 процентов интернета почти на 50 языках. Больше 400 компаний таких как Adidas, Nasdaq и Snap уже стали их клиентами.