В данном ноутбуке содержится код алгоритма предсказания поисковой выдачи. Алгоритм довольно простой:
на исторических запросах строится TF-IDF индекс слов, биграмм и триграмм
описание товаров и значение их атрибутов объединяются в одно суммарное описание
суммарное описание каждого товара прогоняется через построенный индекс
к каждому запросу ищутся топ-25 релевантных товаров по скалярному произведению векторных представлений
Данный код не идеален и ему требуется внимание знающего человека. Подробнее об этом в каждом из пунктов этого ноутбука.
nB! Для выполнения данного задания должны быть установлены библиотеки numpy, pandas, matplotlib, joblib, а так же scikit-learn. Версии указаны в requirements.txt.
Данный ноутбук может быть выполнен в его текущем состоянии от начала и до конца, поэтому пункты можно решать не последовательно.
Однако для того чтобы приступить к некоторым пунктам, сначала необходимо прогнать ячейки с кодом предыдущих.
Все ячейки кроме пустых заблокированы для редактирования, не стесняйтесь создавать новые.
@machinelearning_interview