Data Science по шагам 🍀
🔮 Многие могли заметить какой огромной объем информации необходимо знать для DS. И часто может оказаться, особенно в самом начале, что с получением такого объема информации, эта информация начинает просто путаться в голове.
✅ Есть определенная последовательность шагов при исследовании ваших данных, если мы говорим о первичном эксперименте и тестирование модели: обработка данных, использование модели машинного обучение, тюнинг модели. Конечно, если упоминать сбор данных, подготовку модели для prod рельсов, тестирование гипотез, поддержку модели, то алгоритм может для этих этапов немного отличаться и он больше зависит от инструментов, которые использует компания.
✅ В новом видео постаралась рассмотреть полную последовательность действий: с чего начинать, какие могут быть нюансы и как их можно решать, а также ссылки на дополнительные источники данных, где например подробно описаны подходы для отбора признаков и так далее…
Например. С чего необходимо начинать и на каком этапе применять нормализацию? Что делать, если данных мало и какие модели тогда использовать? А если наоборот? Что делать, если мы видим выбросы в данных? Закрывать на них глаза или удалять пол датасета 😁 Я все немного утрирую, то надеюсь, суть ясна 😉
https://youtu.be/YTLDATQLK6w
🔮 Многие могли заметить какой огромной объем информации необходимо знать для DS. И часто может оказаться, особенно в самом начале, что с получением такого объема информации, эта информация начинает просто путаться в голове.
✅ Есть определенная последовательность шагов при исследовании ваших данных, если мы говорим о первичном эксперименте и тестирование модели: обработка данных, использование модели машинного обучение, тюнинг модели. Конечно, если упоминать сбор данных, подготовку модели для prod рельсов, тестирование гипотез, поддержку модели, то алгоритм может для этих этапов немного отличаться и он больше зависит от инструментов, которые использует компания.
✅ В новом видео постаралась рассмотреть полную последовательность действий: с чего начинать, какие могут быть нюансы и как их можно решать, а также ссылки на дополнительные источники данных, где например подробно описаны подходы для отбора признаков и так далее…
Например. С чего необходимо начинать и на каком этапе применять нормализацию? Что делать, если данных мало и какие модели тогда использовать? А если наоборот? Что делать, если мы видим выбросы в данных? Закрывать на них глаза или удалять пол датасета 😁 Я все немного утрирую, то надеюсь, суть ясна 😉
https://youtu.be/YTLDATQLK6w