https://betterprogramming.pub/data-engineering-is-not-software-engineering-af81eb8d3949
А давайте посремся немножко?
Вот такой заголовок промелькнул в ленте у меня, глаза зацепились:
Data Engineering is Not Software Engineering
Pretending like data and software are the same is counterproductive to the success of your data engineers
Итак, какие аргументы приводит автор статьи?
- A Pipeline Is Either Completed or Worthless
Ну мы или поставили данные, или нихрена. Наполовину работающее приложение хоть как-то что-то делает пользователю, а вот наполовину отработанный пайплайн - нет. Если мы отправили 9 из 10 нужных колонок в базенку, это все равно бесполезно для DS, например.
- Feedback loops in pipeline development are glacial
Все просто. Если юнит тестов нет, жди пока закончится пайплайн и смотри глазами, что там с данными. В разработке без тестов очень больно, а в “датке” все привыкли писать пайплайны без них, потом разберемся!
- Pipeline Development Can Not Be Parallelized
Вы можете работать параллельно с кем-то над фичей в приложении, а вот над пайплайном - очень редкая практика.
Отсюда мой вопрос к вам (приходите в комменты): как вы считаете, data engineering != sowftware development или нет? Вы называете себя девелопером/разработчиком/инженером?
Или это все просто семантика, называйте меня как хотите, лишь бы $160k base salary?
@ohmydataengineer
А давайте посремся немножко?
Вот такой заголовок промелькнул в ленте у меня, глаза зацепились:
Data Engineering is Not Software Engineering
Pretending like data and software are the same is counterproductive to the success of your data engineers
Итак, какие аргументы приводит автор статьи?
- A Pipeline Is Either Completed or Worthless
Ну мы или поставили данные, или нихрена. Наполовину работающее приложение хоть как-то что-то делает пользователю, а вот наполовину отработанный пайплайн - нет. Если мы отправили 9 из 10 нужных колонок в базенку, это все равно бесполезно для DS, например.
- Feedback loops in pipeline development are glacial
Все просто. Если юнит тестов нет, жди пока закончится пайплайн и смотри глазами, что там с данными. В разработке без тестов очень больно, а в “датке” все привыкли писать пайплайны без них, потом разберемся!
- Pipeline Development Can Not Be Parallelized
Вы можете работать параллельно с кем-то над фичей в приложении, а вот над пайплайном - очень редкая практика.
Отсюда мой вопрос к вам (приходите в комменты): как вы считаете, data engineering != sowftware development или нет? Вы называете себя девелопером/разработчиком/инженером?
Или это все просто семантика, называйте меня как хотите, лишь бы $160k base salary?
@ohmydataengineer