本书成体系的介绍了Spark大数据编程技术。本书分为三个部分共10章,从“Spark环境介绍”开始,以“Spark编程入门基础”为承接、最后具体到每一个“Spark编程组件”。这三部分内容从浅入深自成体系,可以方便的学习Spark编程的每个具体知识点。
第一部分包含第1~2章,讲述了Spark的环境。其中,第1章对Spark的背景和运行架构进行了概述;第2章对Spark开发环境的搭建进行了详细介绍。这是学习后续章节的基础。
第二部分包含了第3~5章,讲述了“Spark编程入门基础”部分,重点介绍了Scala编程基础和RDD编程。本书采用Scala编程语言,因此第3章和第4章分别介绍了Scala语言基础和Scala面向对象编程。弹性分布式数据集(Resilient Distributed Dataset,RDD)是Spark对数据的核心抽象,因此第5章介绍了RDD编程。
第三部分包含了第6~10章,讲述了“Spark编程组件”部分,重点介绍了Spark SQL、Spark Streaming、Spark GraphX、Spark ML四个组件的编程。其中,第6章介绍了Spark SQL,可以高效的处理结构化数据;第7章介绍了Spark Streaming,可以高效的流式数据;第8章介绍了Spark GraphX,可以高效的图数据;第9章和第10章介绍了Spark ML,分别以Spark机器学习原理和Spark机器学习模型为重点。
本书在编写过程中力求深入浅出、重点突出、简明扼要,尽可能方便不同专业背景和知识层次的读者阅读。