📚Data Engineering with Scala and Spark: Build streaming and batch pipelines that process massive amounts of data using Scala (2024)



Эта книга научит вас использовать язык программирования Scala на базе фреймворка Spark и новейшие облачные технологии для построения непрерывных и запускаемых конвейеров данных. Для этого вы создадите среду для локальной разработки и масштабируемого развертывания распределенных облачных систем с использованием лучших практик разработки данных, разработки на основе тестирования и CI/CD. Вы также познакомитесь с DataFrame API, Dataset API, Spark SQL API и их использованием. Также будут рассмотрены профилирование и качество данных на Scala, а также методы оркестровки и настройки производительности сквозных конвейеров для доставки данных конечным пользователям.



Книга