Иногда кажется, что для решения проблемы недостаточно простого выполнения расчётов в Spark и хочется более эффективно использовать доступные ресурсы.



Илья Панов, инженер данных в одном из продуктов X5 Tech написал статью в наш блог на Хабр, где поделился некоторыми подходами параллельных вычислений в Apache Spark.



Основная идея заключается в возможности использовать SparkSession в параллельных потоках. И для истинной параллельности необходимо немного поправить конфиг в Spark. Проведённые эксперименты показывают существенный прирост производительности от использования параллельности.