第1章 数据挖掘
1.1 引言
计算机科学家经常提到摩尔定律:计算机的处理速度大约每18个月翻一番。但是很少有人知道计算机的存储容量大约每9个月翻一番。(Goebel和Gruenwald 1999)。像理想气体一样,计算机的数据库迅速膨胀,占满了可用的存储空间,导致数据库中的大量数据成为未开发利用的资源。这些数据就像一个金矿,可以从中提取信息。然后,利用数据挖掘技术,可以将这些信息转换成有价值的知识。
很难说清楚有多少存储在全世界公司、学校、政府部门和其他机构的大型数据库中未使用的海量数据以及其当前增长率。据估计,美国国会图书馆存储的信息量高达3PB(Lesk1997)。Lesk估计,全世界每年大约产生160TB信息。而且,他估计已售出的磁盘空间将超过十万TB。很快,计算机的数据存储容量将超过人们使用该数据存储和使用其中数据的能力。将海量数据转换为知识的过程将变得价值无限。为此,在过去的10~15年中,一种称作数据库中知识发现(KDD)的过程逐步发展完善。数据挖掘算法就包含在KDD过程中。
典型的数据库用户使用一种界面通过诸如SQL这样的标准技术从数据库中检索数据。数据挖掘系统将这一过程向前推进一步,支持用户从数据中发现新的知识(Adriaans和Zantinge 1996)。按照计算机科学家的观点,数据挖掘是一个多学科交叉领域。诸如神经网络、遗传算法、回归、统计分析、机器学习和聚类分析等数据处理技术经常出现在数据挖掘文献中。许多研究者认为数据挖掘还不是一个完善的学科,数据可扩展性、与数据库系统的兼容性,以及可用性和准确性都有待改进。
大规模数据集快速增长的今天,数据挖掘应成为一个新的学科。我们生活在这样一个世界,即便是简单的日常任务,如打电话、使用信用卡或购买五金电器和杂货,都会留下电子印记。诸如核物理和天体物理领域科学实验数量的增加导致每月可能产生几PB (petabytes)规模的数据。近来,生命科学正在成为数据驱动的科学。
广泛用于商业和上述科学领域中的自动数据收集设备每小时能够产生几TB(terabytes)规模的数据,致使已有的推理方法过时。世界上*大的数据仓库——Walmart系统包含500 TB数据。它实在太大,以至于无法装入任何计算机的内存。数据挖掘技术的产生源自进行数据处理业务的企业和进行数据处理研究的科学家需要找到有效的模式来自动处理海量数据。模式可以是简单的数据汇总、数据划分或数据内部的依赖模型。作为知识发现过程,数据挖掘旨在从原始数据得到“被证实的知识”