Анализ данных (Data analysis)

Какие учебники по математическому анализу, линейной алгебре и теории вероятностей лучше подходят для изучения анализа данных?

К сожалению, анализ данных не устроен как стройная теория - это лоскутное одеяло методов, которые опираются на определенные идеи, беря, иногда, для решения одной задачи, половину курса теории оптимизации.

Более того, существует некоторое количество абсолютно необходимых практических навыков для работы в этой области, которые не будут подвязаны к существующим учебникам, поэтому существенную часть, вероятно, придется изучать по документации пакетов.

Для старта:

1 Начните изучение с практических навыков описательной статистики (может взять учебник с названием "статистика" (не математическая статистика), взять датасет на kaggle и начать баловаться с pandas. Это даст вам существенное понимание про элементарную предобработку.

2 Возьмите книжку по практике математической статистики Гмурмана и попытайтесь средствами того же pandas по-постраивать доверительные интервалы, да по-проверять гипотезы.

3 После освоения pandas - вам стоит перейти к библиотеке scikit-learn, почитать ее документацию, поупражняться на конкретных датасетах с кластеризациями, предобработкой, тренировкой моделей и визуализацией. Для визуализации следует ознакомиться с matplotlib и bokeh.

4 Дальше желательно изучить SQL. На фоне владения pandas он окажется простым

5 Потом, почти наверняка наступит период овладения torch и keras.

Вот дальше можно пойти в разные стороны:

• копать в сторону теории без библиотек (типа HMM) и в совершенстве овладеть numpy и stats;

• копать в сторону больших данных и изучать Hadoop и Spark;

• копать в сторону компьютерного зрения и изучать opencv;

• узучать биоинформатику и изучать взаимодействия с GenBank и другими биоинформатическими сервисами

• уйти в изучение по информационному поиску, изучать какой-нибудь EllasticSearch, NLTK, pymorphy, request и регулярные выражения.

Ну и там на самом деле это просто верхушка айсберга.

Поймите тут такую вещь, что понимание - это круто, конечно, но есть отдельно огромная работа уже просто освоить готовые технологии.

Если Вы параллельно сможете еще и теорию осваивать на тему, то советую

1 по анализу трехтомник У. Рудина,

2 по линейной алгебре "Задачи и теоремы линейной алгебры" Прасолова,

3 а по теории вероятностей начать с "Гмурмана" чисто с практических соображений,

4 потом перейти на "Боровкова".

5 Есть еще хорошая книга "Коралов-Синай", но у нее безумно маленький тираж на русском языке.

Еще, разумеется, вам абсолютно необходимо будет знать что-то про конечномерную оптимизацию - это вообще лучше всего по методичкам на сайтах различных вузов посмотреть.

@data_analysis_ml