⭐️ Тестовое задание для DS в Accenture Moscow



Время на выполнение 3-4 дня

Решение лучше кидайте в комменты в виде jupyter notebook’а.



Задание #1:

Таблица (task2.txt) содержит 11 столбцов чисел. Первые 10 столбцов - входные переменные (x_1 , …. , x_10), 11-й столбец - выходная прогнозируемая переменная y. Каждая строка в файле - это один обучающий пример для построения статистической модели для зависимости y = y(x_1,x_2,..,x_10). Конкретный вид связи между выходной и входными переменными не известен.

Требуется провести разведочный анализ данных, выбрать критерий для точности модели, и указать степень важности (информативности) каждой из 10 входных переменных с точки зрения точности модели. Что еще можно предложить чтобы улучшить получившийся результат?

Файл: tesk2.txt



Задание #2:

Нужно предложить и обосновать подход для группировки идентичных наименований товаров.

Пример входа:

[1] "Кисломолочный напиток Актимель ежевично-черничный 100 г"

[2] "Напиток Данон Актимель черника/ежевика 2,5% 6*0,1л Россия"

[3] "Гель для душа Роскошная мягкость Черная орхидея Palmolive, 250 мл". [4] "Гель Palmolive Naturals д/душа Роскошная мягкость Черная орхидея 250мл Италия"

[5] "Гель для душа Palmolive "Черная орхидея" 250 мл"

[6] "Корм Whiskas говядина/кролик канапе новогодний 85г Россия"

Пример выхода: [1 2] [3 4 5] 6 (см. вложенный файл).

Файл: test_task_NLP.json.

final_top.csv



Решение

Решение 2



Другие решения: Решение от одного из DS Accenture (для задания 1):

https://github.com/pdudukin/Regression-Guide/blob/master/Regression%20Guide.ipynbRegression%20Guide.ipynb



@machinelearning_interview