Когда текст спасает Excel, или зачем нам .CSV файлы.



Когда у вас миллионы данных (и я говорю не о суммах, а о количестве строк или столбцов), перед вами стает сразу 2 вопроса:

1. Как эти данные быстро получить (читай – скачать)

2. Как эти данные быстро обработать (читай – скрутить в сводную таблицу)



Казалось бы, на эти вопросы можно отвечать и отдельно, но опытные аналитики и экселеведы вам с хитрой улыбкой скажут - ну нет, нужно думать над ними сразу – ведь «как скачаешь, так и проанализируешь».



Чем хороши в больших данных файлы формата .CSV и почему многие их так боятся?

Формат .CSVэто текстовый формат файла, где есть только строки. При этом вместо столбцов проставлены определенные разделители (зависит от кодировки) – обычно запятые, но часто бывают и точки с запятыми, и другие. И разные приложения (а читать CSV умеют многие программы) могут по-разному интерпретировать файлы – как раз из-за особенностей кодировки и разделителей.

Так, если просто открыть файл .CSV в Excel - скорее всего он сразу же станет таблицей, если удастся автоматом определить правильные символы - разделители столбцов.

Если открыть тот же файл в Блокноте, то будут просто строки, похожие на HTML код.

(см. пример -скрин одного и того же файла в Excel и Блокноте).



Где можно использовать такие файлы? Почти в любой выгрузке из корпоративных CRM, которые потом попадают в Excel.



Как правильно обрабатывать эти исходники? Всегда рассматривайте .CSV как «сырые» файлы.

По аналогии с тем, как фотографы берут свои Raw-снимки и проводят их через череду редакторов, вам нужно файлы .CSV обязательно обработать перед тем, как использовать. Не рекомендую открывать их сразу в Excel, хотя иногда кажется, что все сохранилось как надо – есть большая вероятность наткнуться на конфликт кодировок.

Или, если файл сразу не преобразуется через Excel в таблицу, можно самим воспользоваться Текстом по столбцам и выставить нужные разделители. Но это ручной труд.



Лучшее, что можно сделать с .CSV – прогнать его через Power Query и работать с уже полностью обработанной базой, но это уже совсем другая история!