Spark大数据编程基础（Scala版）

发布日期：2019-03-01作者：高建良盛羽点击：

本书成体系的介绍了Spark大数据编程技术。本书分为三个部分共10章，从“Spark环境介绍”开始，以“Spark编程入门基础”为承接、最后具体到每一个“Spark编程组件”。这三部分内容从浅入深自成体系，可以方便的学习Spark编程的每个具体知识点。

第一部分包含第1～2章，讲述了Spark的环境。其中，第1章对Spark的背景和运行架构进行了概述；第2章对Spark开发环境的搭建进行了详细介绍。这是学习后续章节的基础。

第二部分包含了第3～5章，讲述了“Spark编程入门基础”部分，重点介绍了Scala编程基础和RDD编程。本书采用Scala编程语言，因此第3章和第4章分别介绍了Scala语言基础和Scala面向对象编程。弹性分布式数据集（Resilient Distributed Dataset，RDD）是Spark对数据的核心抽象，因此第5章介绍了RDD编程。

第三部分包含了第6～10章，讲述了“Spark编程组件”部分，重点介绍了Spark SQL、Spark Streaming、Spark GraphX、Spark ML四个组件的编程。其中，第6章介绍了Spark SQL，可以高效的处理结构化数据；第7章介绍了Spark Streaming，可以高效的流式数据；第8章介绍了Spark GraphX，可以高效的图数据；第9章和第10章介绍了Spark ML，分别以Spark机器学习原理和Spark机器学习模型为重点。

本书在编写过程中力求深入浅出、重点突出、简明扼要，尽可能方便不同专业背景和知识层次的读者阅读。