Привет!
Что делать, если у нас есть файл или таблица на десятки миллионов строк и pandas начинает долго думать над операциями?
Библиотека
Однако иногда возникают задачи, где нужно обработать файлы с большим объемом данных, включающие миллионы строк записей и занимающие гигабайты памяти.
Для этой задачи можно посмотреть в сторону библиотеки
Более подробно про сравнение этих двух модулей можно почитать по ссылке
Ноутбук Colab для проверки экспериментов
Что делать, если у нас есть файл или таблица на десятки миллионов строк и pandas начинает долго думать над операциями?
Библиотека
pandas
является удобным инструментом для работы с маленькими файлами и таблицами, которые можно обрабатывать в формате датафрейма. С pandas знакомы практически все аналитики (или должны быть знакомы 😉). Однако иногда возникают задачи, где нужно обработать файлы с большим объемом данных, включающие миллионы строк записей и занимающие гигабайты памяти.
Для этой задачи можно посмотреть в сторону библиотеки
datatable
. Операции чтения и многие операции преобразования данных она делает быстрее модуля pandas. Например, какая-нибудь выгрузка отчета из CRM или ERP системы в формате .csv, который необходимо преобразовать и проанализировать.Более подробно про сравнение этих двух модулей можно почитать по ссылке
Ноутбук Colab для проверки экспериментов