Это разве аналитика?

#день_начинающего_аналитика

Прохожу сейчас курс по Табло на степике от Анастасии Кузнецовой @nastengraph.

Курс очень нравится: помимо собственно основ работы в Табло дается большой объем информации в целом по теории визуализации, цветовому кодированию и т.д. Получается прям погружение в предметную область, независимо от конкретной используемой программы. Также очень нравится обратная связь от Анастасии с подробным разбором курсовых заданий.

Сейчас приступаю к выполнению финального задания. Решил замахнуться на создание дашборда с информацией о зарегистрированных СМИ (территория, форма СМИ, дата регистрации и т.д.).

Скачал открытые данные реестра СМИ с сайта Роскомнадзора. Это 200-мегабайтный XML файл с более чем 4 млн строк о 150 тыс СМИ.

Стал искать куда можно преобразовать данный файл, чтобы обработать в пандасе. Нашел функцию read_XML, которая появилась в пандасе в июле 21 года.

И тут начались злоключения) Анаконда при обновлении пандаса до актуальной версии сказала фиг) решил скачать Юпитер от Jetbrains Dataspell, запускаю read_xml, пыхтит минут 20 и вываливается с ошибкой выделения памяти, смотрю настройки функции, пробую разные движки работы с XML, устанавливаю необходимые дополнительные пакеты. И вуаля, найдена комбинация (движок lxml и секретный ингредиент увеличения размера кучи в настройках jetbrains), которая после 15 минут работы прожевала исходный файл)))))

На пандас сил уже не осталось)))) будет очень захватывающий вечер))))

А как проходят ваши будни аналитика? Много суеты?