1. Определение задач



Когда мы занимаемся аналитикой для бизнеса, перед нами чаще всего встают конкретные прикладные задачи: найти причину события, предсказать поведение потребителя, предложить компании план действий.



Например, нам нужно оценить успех последнего обновления мобильного приложения. Что вообще такое «успех»? В чём он измеряется? По каким метрикам его считать? Важно ещё до начала работы понять, какова наша конечная цель и на какие вопросы придётся ответить, чтобы к ней прийти.



2. Сбор данных



Мы определились с вопросами — теперь нужно разобраться, в каких данных содержатся ответы на них. Бывает, что вся необходимая информация сразу есть у аналитика на руках. А бывает, что нужно придумать, откуда и как её выгрузить.



Иногда приходится и буквально «собирать» данные: скажем, проводить серию опросов. Здесь главное — помнить о репрезентативности выборки.



3. Предобработка



Во-первых, все наши csv-, xls- и txt-файлы с бесконечными разношёрстными таблицами нужно собрать в единую систему внутри среды, в которой мы собираемся работать. Скажем, в датафреймы Pandas.



Во-вторых, нужно провести очистку: избавиться от выбросов, шумов и дубликатов, с помощью специальных инструментов обработать пропущенные значения.



В информатике есть такой известный принцип: «Garbage In, Garbage Out» — некачественные входные данные дают некорректный результат, даже если алгоритм работает идеально. Для бизнес-аналитики это всегда связано с потенциальными убытками.



В-третьих, нужно оптимизировать датафреймы: отфильтровать лишние параметры, агрегировать схожие признаки, упорядочить объекты.



При АД мы обычно имеем дело с множеством разных числовых признаков, которые могут различаться по значениям на порядок. Например, средний расход топлива на 100 км в литрах и вес автомобиля в килограммах. Поэтому часто требуется нормализация данных — приведение всех числовых признаков к одному диапазону значений (как правило — от 0 до 1).



4. Анализ



О том, какие задачи решает АД, мы рассказывали в первой части «Введения в дата-аналитику» (ищите пост по тегу) — среди них можно выделить три большие группы:



● описание имеющихся данных;

● построение моделей и поиск связей;

● формирование прогнозов на будущее.



Здесь в игру вступают дашборды, статистические гипотезы, корреляции и другие методы и средства бизнес-аналитики. Именно тому, как с ними работать, мы и учим на своих курсах 🙂



5. Интерпретация



Last but not least: остаётся понять, как результаты анализа отвечают на ваши вопросы из первого пункта, сформулировать эффективное бизнес-решение и грамотно презентовать свои мысли заказчику.