本书从初学者角度详细介绍了Spark应用程序体系架构的核心技术,全书共9章。第1章详细介绍开发Spark框架的Scala编程语言;第2~4、7~8章主要讲解Spark核心基础、SparkRDD弹性分布式数据集、Spark SQL处理结构化数据、Spark Streaming实时计算框架、Spark MLlib机器学习库,并包含了搭建Spark集群、Spark集群的操作方式、利用Spark解决大数据工作中遇到的基本问题。第5~6章主要讲解大数据环境中常见的辅助系统,HBase数据库以及Kafka流处理平台,包含辅助系统的搭建方式、使用方法以及相关底层实现的基本原理;第9章是一个综合项目,利用Spark框架开发流式计算系统。掌握Spark相关技术,能够很好地适应企业开发的技术需要,为离线、实时数据处理平台的开发奠定基础。 本书附有配套源代码、教学PPT、题库、教学视频、教学补充案例、教学设计等资源。为了帮助初学者更好地学习本书中的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本、专科计算机相关专业,大数据课程的专用教材,是一本适合广大计算机编程爱好者的**读物。