#день_начинающего_аналитика
Ода парсингу почтовых адресов (не email)
Продолжаю обработку исходных данных зарегистрированных СМИ для создания дашборда "Карта СМИ" в tableau. Придумал показать на карте плотность зарегистрированных СМИ на количество жителей в каждом регионе. Сказано-сделано, но проблема в том, что адреса редакций СМИ в исходном файле представлены просто строками. И не просто строками, а строками разного формата 😬 - где-то заполнен почтовый индекс, где-то нет), где-то написано "область", где-то "обл." и т.д.
Что пробовал для парсинга:
1) Популярная библиотека нормализации географических адресов libpostal . Написана на Си, нужно компилировать на компьютере, 700Мб исходных файлов, есть готовые пакеты для Анаконды, но после моих попыток обновить пандас Анаконда сразу отказалась грузить libpostal. В итоге, похоже круто и мощно, но не для меня)
2) Сервис dadata.ru . Круто, функционально, но нормализация/парсинг адреса платный (10 копеек за 1 адрес). Для пет-проекта не подходит.
3) Встроенный парсер адресов в библиотеку анализа текстов natasha . Работает) Правда не может прожевать конструкцию вида "Москва г." - понимает только когда "г. Москва", но выкрутился) городов-федеральных округов у нас не так много, а на уровень малых городов решил не спускаться) Итог наташа работает) скорость на моей машине где-то 30 строк в минуту. Всего строк 150 тыщ)))) Так что ждем результата))))
Ода парсингу почтовых адресов (не email)
Продолжаю обработку исходных данных зарегистрированных СМИ для создания дашборда "Карта СМИ" в tableau. Придумал показать на карте плотность зарегистрированных СМИ на количество жителей в каждом регионе. Сказано-сделано, но проблема в том, что адреса редакций СМИ в исходном файле представлены просто строками. И не просто строками, а строками разного формата 😬 - где-то заполнен почтовый индекс, где-то нет), где-то написано "область", где-то "обл." и т.д.
Что пробовал для парсинга:
1) Популярная библиотека нормализации географических адресов libpostal . Написана на Си, нужно компилировать на компьютере, 700Мб исходных файлов, есть готовые пакеты для Анаконды, но после моих попыток обновить пандас Анаконда сразу отказалась грузить libpostal. В итоге, похоже круто и мощно, но не для меня)
2) Сервис dadata.ru . Круто, функционально, но нормализация/парсинг адреса платный (10 копеек за 1 адрес). Для пет-проекта не подходит.
3) Встроенный парсер адресов в библиотеку анализа текстов natasha . Работает) Правда не может прожевать конструкцию вида "Москва г." - понимает только когда "г. Москва", но выкрутился) городов-федеральных округов у нас не так много, а на уровень малых городов решил не спускаться) Итог наташа работает) скорость на моей машине где-то 30 строк в минуту. Всего строк 150 тыщ)))) Так что ждем результата))))