Когда текст спасает Excel, или зачем нам .CSV файлы.
Когда у вас миллионы данных (и я говорю не о суммах, а о количестве строк или столбцов), перед вами стает сразу 2 вопроса:
1. Как эти данные быстро получить (читай – скачать)
2. Как эти данные быстро обработать (читай – скрутить в сводную таблицу)
Казалось бы, на эти вопросы можно отвечать и отдельно, но опытные аналитики и экселеведы вам с хитрой улыбкой скажут - ну нет, нужно думать над ними сразу – ведь «как скачаешь, так и проанализируешь».
Чем хороши в больших данных файлы формата .CSV и почему многие их так боятся?
Формат .CSV – это текстовый формат файла, где есть только строки. При этом вместо столбцов проставлены определенные разделители (зависит от кодировки) – обычно запятые, но часто бывают и точки с запятыми, и другие. И разные приложения (а читать CSV умеют многие программы) могут по-разному интерпретировать файлы – как раз из-за особенностей кодировки и разделителей.
Так, если просто открыть файл .CSV в Excel - скорее всего он сразу же станет таблицей, если удастся автоматом определить правильные символы - разделители столбцов.
Если открыть тот же файл в Блокноте, то будут просто строки, похожие на HTML код.
(см. пример -скрин одного и того же файла в Excel и Блокноте).
Где можно использовать такие файлы? Почти в любой выгрузке из корпоративных CRM, которые потом попадают в Excel.
Как правильно обрабатывать эти исходники? Всегда рассматривайте .CSV как «сырые» файлы.
По аналогии с тем, как фотографы берут свои Raw-снимки и проводят их через череду редакторов, вам нужно файлы .CSV обязательно обработать перед тем, как использовать. Не рекомендую открывать их сразу в Excel, хотя иногда кажется, что все сохранилось как надо – есть большая вероятность наткнуться на конфликт кодировок.
Или, если файл сразу не преобразуется через Excel в таблицу, можно самим воспользоваться Текстом по столбцам и выставить нужные разделители. Но это ручной труд.
Лучшее, что можно сделать с .CSV – прогнать его через Power Query и работать с уже полностью обработанной базой, но это уже совсем другая история!
Когда у вас миллионы данных (и я говорю не о суммах, а о количестве строк или столбцов), перед вами стает сразу 2 вопроса:
1. Как эти данные быстро получить (читай – скачать)
2. Как эти данные быстро обработать (читай – скрутить в сводную таблицу)
Казалось бы, на эти вопросы можно отвечать и отдельно, но опытные аналитики и экселеведы вам с хитрой улыбкой скажут - ну нет, нужно думать над ними сразу – ведь «как скачаешь, так и проанализируешь».
Чем хороши в больших данных файлы формата .CSV и почему многие их так боятся?
Формат .CSV – это текстовый формат файла, где есть только строки. При этом вместо столбцов проставлены определенные разделители (зависит от кодировки) – обычно запятые, но часто бывают и точки с запятыми, и другие. И разные приложения (а читать CSV умеют многие программы) могут по-разному интерпретировать файлы – как раз из-за особенностей кодировки и разделителей.
Так, если просто открыть файл .CSV в Excel - скорее всего он сразу же станет таблицей, если удастся автоматом определить правильные символы - разделители столбцов.
Если открыть тот же файл в Блокноте, то будут просто строки, похожие на HTML код.
(см. пример -скрин одного и того же файла в Excel и Блокноте).
Где можно использовать такие файлы? Почти в любой выгрузке из корпоративных CRM, которые потом попадают в Excel.
Как правильно обрабатывать эти исходники? Всегда рассматривайте .CSV как «сырые» файлы.
По аналогии с тем, как фотографы берут свои Raw-снимки и проводят их через череду редакторов, вам нужно файлы .CSV обязательно обработать перед тем, как использовать. Не рекомендую открывать их сразу в Excel, хотя иногда кажется, что все сохранилось как надо – есть большая вероятность наткнуться на конфликт кодировок.
Или, если файл сразу не преобразуется через Excel в таблицу, можно самим воспользоваться Текстом по столбцам и выставить нужные разделители. Но это ручной труд.
Лучшее, что можно сделать с .CSV – прогнать его через Power Query и работать с уже полностью обработанной базой, но это уже совсем другая история!