Что такое алгоритмы схожести и когда они используются?



Алгоритмы схожести вычисляют сходство пары записей/узлов/точек/текстов. Есть алгоритмы, которые вычисляют расстояние между двумя значениями данных, такими как расстояние Евклида. А также есть алгоритмы, вычисляющие схожесть текстов, такие как алгоритм Левенштейна.



Когда используются?



Алгоритмы сходства применяются повсеместно, но чаще всего в рекомендательных системах.



Какие статьи предложит тебе Medium, основываясь на прочитанном тобой ранее?

Какие ингредиенты вы можете использовать для замены голубики?

Какие треки предложит тебе Spotify, основываясь на треках, которые тебе уже нравятся?

Какие продукты Amazon предложит тебе, основываясь на истории покупок?



Это только некоторые примеры применения алгоритмов сходства в повседневной жизни.




Примеры алгоритмов

Ниже приведены самые популярные алгоритмы сходства:



К-ближайших соседей;

расстояние Евклида;

косинусное сходство;

алгоритм Левенштейна;

алгоритм Джаро-Винклера;

сингулярное разложение (SVD).



@machinelearning_interview