💨 Что, где, откуда: извлекаем реляционный датасет из JSON



Когда вы сталкиваетесь с большим ненормализованным датасетом, да еще и в формате JSON, который нужно переложить в связанные SQL-таблицы, необходимо:



Читать датасет по чанкам;

Анализировать датасет на качество, смотреть на атрибуты;

Нормализовать датасет, раскрывать связи между сущностями и следить за их целостностью.



В целом, знание этих пунктов позволит сразу адаптировать датасет под реляционные СУБД и значительно сократить время, затраченное на его обработку, ведь со структурной точки зрения его не потребуется переделывать бессчётное количество раз. А для всего остального – есть функционал SQL.



📌 Читать



@bigdatai