На HackerNews завирусилось, что мы релизнули кусок библиотеки для анализа графов. Поскольку документации в релизе особо нет (🤦♂️ ), хочу быстренько рассказать, что там вообще сейчас есть и что будет.
Во-первых, этот кусок библиотеки – только для анализа графов, которые влезают в оперативную память. Не надо пугаться – с нужным сжатием в память влезают графы с парой миллиардов вершин – хватит, чтобы проанализировать фейсбук.🤓
Во-вторых, основной кусок, который заопенсоршен – про кластеризацию. У нас довольно хорошо работает иерархическая кластеризация, есть статьи на ICML/NeurIPS [1, 2, 3]. Вот её и постарались опенсорсить в первую очередь – в sklearn дай боже получится кластеризовать датасет на 20к вершин (😮💨 ) а у нас получается миллиард. 📈
До конца года хочу выпустить наш код для in-memory эмбеддингов туда же. Будет быстро, обещаю.✨
Во-первых, этот кусок библиотеки – только для анализа графов, которые влезают в оперативную память. Не надо пугаться – с нужным сжатием в память влезают графы с парой миллиардов вершин – хватит, чтобы проанализировать фейсбук.
Во-вторых, основной кусок, который заопенсоршен – про кластеризацию. У нас довольно хорошо работает иерархическая кластеризация, есть статьи на ICML/NeurIPS [1, 2, 3]. Вот её и постарались опенсорсить в первую очередь – в sklearn дай боже получится кластеризовать датасет на 20к вершин (
До конца года хочу выпустить наш код для in-memory эмбеддингов туда же. Будет быстро, обещаю.