Big Data AI

💨

Что, где, откуда: извлекаем реляционный датасет из JSON

Когда вы сталкиваетесь с большим ненормализованным датасетом, да еще и в формате JSON, который нужно переложить в связанные SQL-таблицы, необходимо:

▪Читать датасет по чанкам;

▪Анализировать датасет на качество, смотреть на атрибуты;

▪Нормализовать датасет, раскрывать связи между сущностями и следить за их целостностью.

В целом, знание этих пунктов позволит сразу адаптировать датасет под реляционные СУБД и значительно сократить время, затраченное на его обработку, ведь со структурной точки зрения его не потребуется переделывать бессчётное количество раз. А для всего остального – есть функционал SQL.

📌 Читать

@bigdatai