Время на выполнение 3-4 дня
Решение лучше кидайте в комменты в виде jupyter notebook’а.
Задание #1:
Таблица (task2.txt) содержит 11 столбцов чисел. Первые 10 столбцов - входные переменные (x_1 , …. , x_10), 11-й столбец - выходная прогнозируемая переменная y. Каждая строка в файле - это один обучающий пример для построения статистической модели для зависимости y = y(x_1,x_2,..,x_10). Конкретный вид связи между выходной и входными переменными не известен.
Требуется провести разведочный анализ данных, выбрать критерий для точности модели, и указать степень важности (информативности) каждой из 10 входных переменных с точки зрения точности модели. Что еще можно предложить чтобы улучшить получившийся результат?
Файл: tesk2.txt
Задание #2:
Нужно предложить и обосновать подход для группировки идентичных наименований товаров.
Пример входа:
[1] "Кисломолочный напиток Актимель ежевично-черничный 100 г"
[2] "Напиток Данон Актимель черника/ежевика 2,5% 6*0,1л Россия"
[3] "Гель для душа Роскошная мягкость Черная орхидея Palmolive, 250 мл". [4] "Гель Palmolive Naturals д/душа Роскошная мягкость Черная орхидея 250мл Италия"
[5] "Гель для душа Palmolive "Черная орхидея" 250 мл"
[6] "Корм Whiskas говядина/кролик канапе новогодний 85г Россия"
Пример выхода: [1 2] [3 4 5] 6 (см. вложенный файл).
Файл: test_task_NLP.json.
final_top.csv
Другие решения: Решение от одного из DS Accenture (для задания 1):
https://github.com/pdudukin/Regression-Guide/blob/master/Regression%20Guide.ipynbRegression%20Guide.ipynb
@machinelearning_interview