https://betterprogramming.pub/data-engineering-is-not-software-engineering-af81eb8d3949



А давайте посремся немножко?

Вот такой заголовок промелькнул в ленте у меня, глаза зацепились:



Data Engineering is Not Software Engineering

Pretending like data and software are the same is counterproductive to the success of your data engineers




Итак, какие аргументы приводит автор статьи?



- A Pipeline Is Either Completed or Worthless

Ну мы или поставили данные, или нихрена. Наполовину работающее приложение хоть как-то что-то делает пользователю, а вот наполовину отработанный пайплайн - нет. Если мы отправили 9 из 10 нужных колонок в базенку, это все равно бесполезно для DS, например.



- Feedback loops in pipeline development are glacial

Все просто. Если юнит тестов нет, жди пока закончится пайплайн и смотри глазами, что там с данными. В разработке без тестов очень больно, а в “датке” все привыкли писать пайплайны без них, потом разберемся!



- Pipeline Development Can Not Be Parallelized

Вы можете работать параллельно с кем-то над фичей в приложении, а вот над пайплайном - очень редкая практика.





Отсюда мой вопрос к вам (приходите в комменты): как вы считаете, data engineering != sowftware development или нет? Вы называете себя девелопером/разработчиком/инженером?

Или это все просто семантика, называйте меня как хотите, лишь бы $160k base salary?





@ohmydataengineer