#день_начинающего_аналитика



Прохожу сейчас курс по Табло на степике от Анастасии Кузнецовой @nastengraph.



Курс очень нравится: помимо собственно основ работы в Табло дается большой объем информации в целом по теории визуализации, цветовому кодированию и т.д. Получается прям погружение в предметную область, независимо от конкретной используемой программы. Также очень нравится обратная связь от Анастасии с подробным разбором курсовых заданий.



Сейчас приступаю к выполнению финального задания. Решил замахнуться на создание дашборда с информацией о зарегистрированных СМИ (территория, форма СМИ, дата регистрации и т.д.).



Скачал открытые данные реестра СМИ с сайта Роскомнадзора. Это 200-мегабайтный XML файл с более чем 4 млн строк о 150 тыс СМИ.



Стал искать куда можно преобразовать данный файл, чтобы обработать в пандасе. Нашел функцию read_XML, которая появилась в пандасе в июле 21 года.



И тут начались злоключения) Анаконда при обновлении пандаса до актуальной версии сказала фиг) решил скачать Юпитер от Jetbrains Dataspell, запускаю read_xml, пыхтит минут 20 и вываливается с ошибкой выделения памяти, смотрю настройки функции, пробую разные движки работы с XML, устанавливаю необходимые дополнительные пакеты. И вуаля, найдена комбинация (движок lxml и секретный ингредиент увеличения размера кучи в настройках jetbrains), которая после 15 минут работы прожевала исходный файл)))))



На пандас сил уже не осталось)))) будет очень захватывающий вечер))))



А как проходят ваши будни аналитика? Много суеты?