🚀 Эффективный сбор данных с DASK.



Чем больше у нас данных, тем больше возможностей извлечь из них полезную в работе информацию. Однако сбор данных - это только часть задачи, первый этап. Необходимо решить и где их хранить, и как обработать.



Обычно для этого используются проверенные временем инструменты, например, Pandas и NumPy. Они эффективны и пользуются большим доверием.



По мере увеличения объёма данных мы начинаем сталкиваться с физическими ограничениями этих инструментов. Отчасти эта проблема решается увеличением объёма оперативной памяти. Но это не всегда возможно и только отодвигает проблему, не решая её принципиально. Также хотелось бы иметь возможность обрабатывать данные параллельно на нескольких компьютерах или используя несколько процессоров/ядер. Для решения задач можно было бы перейти к более масштабируемому решению, такому как Spark, но, зачастую, такая доработка требует много времени.



Разве не было бы замечательно, если бы вы могли сделать это в своей системе локально, а при необходимости и масштабировать до кластера? В этом может помочь Dask.



➡️ Читать

🎯Шпаргалка по Dask



@data_analysis_ml