本书源自作者在斯坦福大学教授的“海量数据挖掘”(CS246: Mining Massive Datasets)课程,第1版上市以来受到读者广泛欢迎和认可。这个新版本在上一版基础上新增三章内容,分别涵盖社会网络图挖掘、降维和大规模机器学习,同时也更新了第1版的部分内容。
众所周知,移动互联网、社交媒体、电子商务和各种传感器的运用产生了超大数据集,挖掘这些数据可以提炼出有用的信息。本书以大数据环境下的数据挖掘和机器学习为**,全面介绍了实践中行之有效的数据处理算法,是在校学生和相关从业人员的**读物。主要内容包括:
分布式文件系统以及MapReduce工具;
相似性搜索;
数据流处理以及针对易丢失数据等特殊情况的专用处理算法;
搜索引擎技术,如谷歌的PageRank;
频繁项集挖掘;
大规模高维数据集的聚类算法;
Web应用中的关键问题——广告管理和**系统;
社会网络图挖掘;
降维处理,如SVD分解和CUR分解;
大规模机器学习。
本书配套网站提供了英文版初稿及相关资料的链接:http://www.mmds.org/。