Для тех кто только начинает в Data Science Топ-10 Python библиотек:
1. Pandas
Применяется для анализа данных, предоставляет множество инструментов для сбора, очистки и манипулирования любыми индексированными данными. Библиотеки для машинного обучения (ML) также используют датафреймы из Pandas в качестве входных данных.
2. NumPy
Главное преимущество NumPy — поддержка n-размерных массивов. Эти многомерные массивы в 50 раз надёжнее списков в Python. Библиотека использует функции оптимизированные для работы с многомерными массивами, скорость работы которых сравнима с MATLAB.
3. Scikit-learn
Это самая важная библиотека для ML на Python. После очистки и манипуляций с данными в Pandas или NumPy, Scikit-learn используется для создания моделей ML. Библиотека предоставляет множество инструментов для предиктивного моделирования и анализа.
4. Seaborn
Эффективная Python библиотека для создания различных визуализаций в Data Science, использующая Matplotlib. Одна из основных её особенностей это визуализация данных, которая позволяет увидеть корреляцию там, где она была не очевидна. Это позволяет дата-сайентистам лучше понимать данные.
5. Plotly
Plotly это мощный, легкий в использовании инструмент для создания визуализаций, который позволяет с ними взаимодействовать. Наряду с Plotly существует Dash, который позволяет создавать динамические дэшборды, используя визуализации Plotly. Dash это веб интерфейс для Python, который избавляет от необходимости использовать Js в аналитических веб приложениях, и позволяет запускать их онлайн и офлайн.
6. SciPy
Библиотека математических функций, например: статистические функции, функции оптимизации, обработки сигналов. Для решения дифференциальных уравнений и оптимизации включает в себя функции для нахождения численного решения интегралов.
7. Statsmodels
Библиотека используется для создания статистических моделей типа линейной регрессии, и проведения статистических тестов. Она включает в себя графические возможности и функции из Matplotlib, для обработки данных использует Pandas, для R подобных формул использует Pasty, также использует Numpy и SciPy.
8. TensorFlow
Одна из самых популярных Python библиотек для создания нейронных сетей. Она использует многомерные массивы, также известные как тензоры, которые позволяют производить несколько операций на одних входных данных.
Благодаря своей многопоточной природе, он может одновременно тренировать несколько нейронных сетей и создавать высокоэффективные и масштабируемые модели.
9. Keras
Keras в основном применяют для создания моделей глубокого обучения и нейронных сетей. Библиотека использует TensorFlow и Theano и позволяет легко создавать нейронные сети. Из-за того, что Keras генерирует вычислительный граф на сервере, он немного медленнее других библиотек.
10. Gradio
Gradio позволяет создавать и разворачивать веб-приложения для ML используя всего лишь несколько строк кода. Он служит тем же целям что и Streamlit, или Flask, но быстрее и проще позволяет разворачивать модели.
1. Pandas
Применяется для анализа данных, предоставляет множество инструментов для сбора, очистки и манипулирования любыми индексированными данными. Библиотеки для машинного обучения (ML) также используют датафреймы из Pandas в качестве входных данных.
2. NumPy
Главное преимущество NumPy — поддержка n-размерных массивов. Эти многомерные массивы в 50 раз надёжнее списков в Python. Библиотека использует функции оптимизированные для работы с многомерными массивами, скорость работы которых сравнима с MATLAB.
3. Scikit-learn
Это самая важная библиотека для ML на Python. После очистки и манипуляций с данными в Pandas или NumPy, Scikit-learn используется для создания моделей ML. Библиотека предоставляет множество инструментов для предиктивного моделирования и анализа.
4. Seaborn
Эффективная Python библиотека для создания различных визуализаций в Data Science, использующая Matplotlib. Одна из основных её особенностей это визуализация данных, которая позволяет увидеть корреляцию там, где она была не очевидна. Это позволяет дата-сайентистам лучше понимать данные.
5. Plotly
Plotly это мощный, легкий в использовании инструмент для создания визуализаций, который позволяет с ними взаимодействовать. Наряду с Plotly существует Dash, который позволяет создавать динамические дэшборды, используя визуализации Plotly. Dash это веб интерфейс для Python, который избавляет от необходимости использовать Js в аналитических веб приложениях, и позволяет запускать их онлайн и офлайн.
6. SciPy
Библиотека математических функций, например: статистические функции, функции оптимизации, обработки сигналов. Для решения дифференциальных уравнений и оптимизации включает в себя функции для нахождения численного решения интегралов.
7. Statsmodels
Библиотека используется для создания статистических моделей типа линейной регрессии, и проведения статистических тестов. Она включает в себя графические возможности и функции из Matplotlib, для обработки данных использует Pandas, для R подобных формул использует Pasty, также использует Numpy и SciPy.
8. TensorFlow
Одна из самых популярных Python библиотек для создания нейронных сетей. Она использует многомерные массивы, также известные как тензоры, которые позволяют производить несколько операций на одних входных данных.
Благодаря своей многопоточной природе, он может одновременно тренировать несколько нейронных сетей и создавать высокоэффективные и масштабируемые модели.
9. Keras
Keras в основном применяют для создания моделей глубокого обучения и нейронных сетей. Библиотека использует TensorFlow и Theano и позволяет легко создавать нейронные сети. Из-за того, что Keras генерирует вычислительный граф на сервере, он немного медленнее других библиотек.
10. Gradio
Gradio позволяет создавать и разворачивать веб-приложения для ML используя всего лишь несколько строк кода. Он служит тем же целям что и Streamlit, или Flask, но быстрее и проще позволяет разворачивать модели.