Мы тут немного упустили, извиняемся. 26 июля вышел релиз 2.0.0 платформы для распределенной обработки данных Apache Spark.



Основные изменения:

API переработано в сторону большей унификации: объединены DataFrames и Datasets, добавлена универсальная входная точка SparkSession, упрощено Accumulator API;

Значительно (до 10 раз по сравнению со Spark 1.6) увеличено быстродействие на некоторых операциях;

Добавлено Structured Streaming API (пока альфа-версия, незначительно расширяющая DataFrame/Dataset API).



Официальные Release Notes: http://amp.gs/8key

Сообщение в блоге Databricks, включает в себя подробное сравнение быстродействия Spark 1.6 и 2.0: http://amp.gs/8ke7