Какие учебники по математическому анализу, линейной алгебре и теории вероятностей лучше подходят для изучения анализа данных?
К сожалению, анализ данных не устроен как стройная теория - это лоскутное одеяло методов, которые опираются на определенные идеи, беря, иногда, для решения одной задачи, половину курса теории оптимизации.
Более того, существует некоторое количество абсолютно необходимых практических навыков для работы в этой области, которые не будут подвязаны к существующим учебникам, поэтому существенную часть, вероятно, придется изучать по документации пакетов.
Для старта:
1 Начните изучение с практических навыков описательной статистики (может взять учебник с названием "статистика" (не математическая статистика), взять датасет на kaggle и начать баловаться с pandas. Это даст вам существенное понимание про элементарную предобработку.
2 Возьмите книжку по практике математической статистики Гмурмана и попытайтесь средствами того же pandas по-постраивать доверительные интервалы, да по-проверять гипотезы.
3 После освоения pandas - вам стоит перейти к библиотеке scikit-learn, почитать ее документацию, поупражняться на конкретных датасетах с кластеризациями, предобработкой, тренировкой моделей и визуализацией. Для визуализации следует ознакомиться с matplotlib и bokeh.
4 Дальше желательно изучить SQL. На фоне владения pandas он окажется простым
5 Потом, почти наверняка наступит период овладения torch и keras.
Вот дальше можно пойти в разные стороны:
• копать в сторону теории без библиотек (типа HMM) и в совершенстве овладеть numpy и stats;
• копать в сторону больших данных и изучать Hadoop и Spark;
• копать в сторону компьютерного зрения и изучать opencv;
• узучать биоинформатику и изучать взаимодействия с GenBank и другими биоинформатическими сервисами
• уйти в изучение по информационному поиску, изучать какой-нибудь EllasticSearch, NLTK, pymorphy, request и регулярные выражения.
Ну и там на самом деле это просто верхушка айсберга.
Поймите тут такую вещь, что понимание - это круто, конечно, но есть отдельно огромная работа уже просто освоить готовые технологии.
Если Вы параллельно сможете еще и теорию осваивать на тему, то советую
1 по анализу трехтомник У. Рудина,
2 по линейной алгебре "Задачи и теоремы линейной алгебры" Прасолова,
3 а по теории вероятностей начать с "Гмурмана" чисто с практических соображений,
4 потом перейти на "Боровкова".
5 Есть еще хорошая книга "Коралов-Синай", но у нее безумно маленький тираж на русском языке.
Еще, разумеется, вам абсолютно необходимо будет знать что-то про конечномерную оптимизацию - это вообще лучше всего по методичкам на сайтах различных вузов посмотреть.
@data_analysis_ml
К сожалению, анализ данных не устроен как стройная теория - это лоскутное одеяло методов, которые опираются на определенные идеи, беря, иногда, для решения одной задачи, половину курса теории оптимизации.
Более того, существует некоторое количество абсолютно необходимых практических навыков для работы в этой области, которые не будут подвязаны к существующим учебникам, поэтому существенную часть, вероятно, придется изучать по документации пакетов.
Для старта:
1 Начните изучение с практических навыков описательной статистики (может взять учебник с названием "статистика" (не математическая статистика), взять датасет на kaggle и начать баловаться с pandas. Это даст вам существенное понимание про элементарную предобработку.
2 Возьмите книжку по практике математической статистики Гмурмана и попытайтесь средствами того же pandas по-постраивать доверительные интервалы, да по-проверять гипотезы.
3 После освоения pandas - вам стоит перейти к библиотеке scikit-learn, почитать ее документацию, поупражняться на конкретных датасетах с кластеризациями, предобработкой, тренировкой моделей и визуализацией. Для визуализации следует ознакомиться с matplotlib и bokeh.
4 Дальше желательно изучить SQL. На фоне владения pandas он окажется простым
5 Потом, почти наверняка наступит период овладения torch и keras.
Вот дальше можно пойти в разные стороны:
• копать в сторону теории без библиотек (типа HMM) и в совершенстве овладеть numpy и stats;
• копать в сторону больших данных и изучать Hadoop и Spark;
• копать в сторону компьютерного зрения и изучать opencv;
• узучать биоинформатику и изучать взаимодействия с GenBank и другими биоинформатическими сервисами
• уйти в изучение по информационному поиску, изучать какой-нибудь EllasticSearch, NLTK, pymorphy, request и регулярные выражения.
Ну и там на самом деле это просто верхушка айсберга.
Поймите тут такую вещь, что понимание - это круто, конечно, но есть отдельно огромная работа уже просто освоить готовые технологии.
Если Вы параллельно сможете еще и теорию осваивать на тему, то советую
1 по анализу трехтомник У. Рудина,
2 по линейной алгебре "Задачи и теоремы линейной алгебры" Прасолова,
3 а по теории вероятностей начать с "Гмурмана" чисто с практических соображений,
4 потом перейти на "Боровкова".
5 Есть еще хорошая книга "Коралов-Синай", но у нее безумно маленький тираж на русском языке.
Еще, разумеется, вам абсолютно необходимо будет знать что-то про конечномерную оптимизацию - это вообще лучше всего по методичкам на сайтах различных вузов посмотреть.
@data_analysis_ml