Git для данных - это давняя мечта многих разработчиков и дата-инженеров. Как организовать хранение и передачу данных так чтобы было похоже на систему контроля версий и учитывало объёмы и изменения в наборах данных.



Несколько проектов существуют для решения этой задачи, например такие:

- Dolt [1] [2] - умеет многое, объединять данные, сравнивать, делать таблицы сравнения, разрешать конфликты и тд. плюс многое из возможностей git'а

- Daff [3] позволяет работать с таблицами CSV и также сравнивать их, объединять и тд. Интегрирован с git

- DVC [4] система контроля версиями для проектов по машинному обучению. Довольно популярна и умеет многое связанное с проектами именно по ML





Ссылки:

[1] https://github.com/liquidata-inc/dolt

[2] https://www.dolthub.com/

[3] https://github.com/paulfitz/daff

[4] https://dvc.org/



#opendata #data #git #datatools