本书以任务为导向,较为全面地介绍Spark大数据技术的相关知识。全书共9章,具体内容包括Spark概述、Scala基础、Spark编程基础、Spark编程进阶、Spark SQL—结构化数据文件处理、Spark Streaming—实时计算框架、Spark GraphX—图计算框架、Spark MLlib—功能强大的算法库,以及项目案例—广告检测的流量作弊识别。本书的大部分章节包含实训与课后习题,通过练习和实践操作,可以帮助读者巩固所学的内容。 本书可以作为高校大数据技术类专业教材,也可作为大数据技术爱好者的自学用书。