➡️ Задание Diginetica



В данном ноутбуке содержится код алгоритма предсказания поисковой выдачи. Алгоритм довольно простой:



на исторических запросах строится TF-IDF индекс слов, биграмм и триграмм

описание товаров и значение их атрибутов объединяются в одно суммарное описание

суммарное описание каждого товара прогоняется через построенный индекс

к каждому запросу ищутся топ-25 релевантных товаров по скалярному произведению векторных представлений

Данный код не идеален и ему требуется внимание знающего человека. Подробнее об этом в каждом из пунктов этого ноутбука.



nB! Для выполнения данного задания должны быть установлены библиотеки numpy, pandas, matplotlib, joblib, а так же scikit-learn. Версии указаны в requirements.txt.



Данный ноутбук может быть выполнен в его текущем состоянии от начала и до конца, поэтому пункты можно решать не последовательно.



Однако для того чтобы приступить к некоторым пунктам, сначала необходимо прогнать ячейки с кодом предыдущих.



Все ячейки кроме пустых заблокированы для редактирования, не стесняйтесь создавать новые.



➡️ Task



@machinelearning_interview