Институт открытых данных (The ODI) выпустили версию 0.4 приложения Comma Chameleon [1] - по валидации CSV файлов, а заодно и по исправлению в них ошибок. Эта версия наиболее стабильная из всех предыдущих и существует для Mac, Linux, Windows и просто как открытый код в репозитории [2].



Полезный инструмент для всех кто готовит данные для публикации и думает об автоматизации и упрощении очистки данных.

Также напомню что существуют такие сервисы и инструменты как:

- CSVLint [3] - онлайн сервис по валидации CSV файлов и с открытым кодом [4]

- CSVkit [5] - библиотека для Python по многочисленным манипуляциям с CSV файлами и множеством инструментов для командной строки

- textql [6] - инструмент по запуску SQL запросов на CSV/TSV файлах

- PapaParse [7] - парсер очень больших CSV файлов

- Countries [8] - страны мира в JSON, CSV, XML и YAML

- Tablib [9] - библиотека для работы с любыми табличными данными включая CSV



(Если Вам есть что добавить - пишите мне на @ibegtin, если есть что обсудить - приглашаю в общий чат http://telegram.me/begtinchat)



Ссылки:

[1] https://github.com/theodi/comma-chameleon/releases/tag/0.4.0

[2] https://github.com/theodi/comma-chameleon

[3] http://csvlint.io/

[4] https://github.com/theodi/csvlint

[5] https://github.com/wireservice/csvkit

[6] https://github.com/dinedal/textql

[7] https://github.com/mholt/PapaParse

[8] https://mledoze.github.io/countries/

[9] https://github.com/kennethreitz/tablib



#opendata #opengov #csv #datacleaning