Новый пожинатель пожиматель твоих embeddings - ncvis.



Тут сосед открыл для меня новый тул по сжатию dimension эмбеддингов, выглядит перспективно. Работает в разы быстрее umap. При этом, авторы, из ру комьюнити, что не может не радовать.



Помню времена, когда TSNE был медленнее, чем umap. Теперь есть что-то быстрее последнего. Уже готовлюсь внедрить этот метод к себе в пайп кластеризации со своим кастомным вариантом BertTopic + hdbscan.



Читая доку, понимаю за счёт чего сделано ускорение. Использование моих любимых ANN методик , а именно HNSW (писал об этом тут).



Всё нравится. 🦾 Сожалею лишь, что узнал об этом сейчас. А статья на секундочку 2020 года!!! 😱



URL: https://github.com/stat-ml/ncvis