Мы тут немного упустили, извиняемся. 26 июля вышел релиз 2.0.0 платформы для распределенной обработки данных Apache Spark.
Основные изменения:
API переработано в сторону большей унификации: объединены DataFrames и Datasets, добавлена универсальная входная точка SparkSession, упрощено Accumulator API;
Значительно (до 10 раз по сравнению со Spark 1.6) увеличено быстродействие на некоторых операциях;
Добавлено Structured Streaming API (пока альфа-версия, незначительно расширяющая DataFrame/Dataset API).
Официальные Release Notes: http://amp.gs/8key
Сообщение в блоге Databricks, включает в себя подробное сравнение быстродействия Spark 1.6 и 2.0: http://amp.gs/8ke7
Основные изменения:
API переработано в сторону большей унификации: объединены DataFrames и Datasets, добавлена универсальная входная точка SparkSession, упрощено Accumulator API;
Значительно (до 10 раз по сравнению со Spark 1.6) увеличено быстродействие на некоторых операциях;
Добавлено Structured Streaming API (пока альфа-версия, незначительно расширяющая DataFrame/Dataset API).
Официальные Release Notes: http://amp.gs/8key
Сообщение в блоге Databricks, включает в себя подробное сравнение быстродействия Spark 1.6 и 2.0: http://amp.gs/8ke7