Спасибо каналу @dataeng за подбор ссылок с саммита Apache Airflow 🙂



Удалось ознакомиться с перечисленными докладами, делюсь своими впечатлениями.



Автор доклада "Advanced Apache Superset for Data Engineers" из компании Preset рассказывает о возможностях Superset. Я предпочитаю Redash, но некоторые вещи в Superset из категории advanced features показались интересными:

* Например, можно определить не только пользовательский параметр в рамках SQL-запроса, но и пользовательскую функцию (в Jinja).

* Помимо этого в запросах по расписанию удобно можно задать output table для результатов, а сам запрос использовать в Airflow.

* Можно определить пользовательский плагин визуализации

* Можно динамически создавать графики через REST API (однако в самом докладе трюк не удался)



Второй доклад в основном рассказывает о пирамиде потребностей в данных организации, достаточно известный концепт о сравнении с пирамидой потребностей Маслоу, где в основе пирамиды — Data engineering, а в вершине — Machine Learning.



Доклад "Airflow the perfect match in our analytics pipeline" в большей степени об описании опыта использования Airflow в облачной инфраструктуре на больших массивах данных (десятки террабайт в дейтинге). В частности, автор рассказывает о том, как именно у них настроены DAGs в рамках аналитического пайплайна.

Из интересного: динамическое создание задач в Airflow как часть пайплайна.



Последний доклад из подборки посмотрел очень бегло, в частности, из-за менее понятного мне английского языка автора. Из ключевых хайлайтов в докладе: о месте Airflow в архитектуре, масштабировании. Отдельно можно отметить довольно подробное погружение в плагины Airflow (API).