在構建分析工具以快速獲得洞察力之前,你首先需要知道如何處理實時數據。熟悉Apache Spark的開發(fā)人員通過這本實用指南,可以學習如何將該內存框架用于流數據處理。你會發(fā)現Spark(如何讓你用與編寫批處理作業(yè)幾乎相同的方式編寫流作業(yè)。兩位作者Gerard Maas和Farancois Garillot將帶你探索Apache Spark的理論基礎知識。本書通過兩個部分對比了Spark(現在支持的兩種流API的差異:原始Spark Streaming庫和新的結構化流API。學習基本的流處理概念并研究不同的流體系結構通過實例探討結構化流處理;詳細介紹流處理的不同方面。利用Spark流創(chuàng)建和操作流作業(yè)和應用程序;將Spark流與其他Spark API集成。學習高級Spark流處理技術,包括近似算法和機器學習算法。將Apache Spark與其他流處理項目進行比較,包括Apache Storm、Apache Flink和Apache Kafka Strearns。