数据挖掘(data mining)技术就是从大量数据中获得有利于决策的信息的一种方法。通过综合使用统计学、数学和计算机的各种方法,分析人员从数据仓库中"挖掘数据",并把它转化成有用的信息,故名数据挖掘。Kurt Thearling博士是这个领域中的带头人,他认为数据挖掘是"从大型数据库中自动提取出预测信息"。Kurt Thearling给出的定义有两个关键词,"自动"和"预测"。数据挖掘系统是使用自动程序从数据中提取信息的*有效的系统,它仅仅使用了*一般甚至是模糊查询的方法。现在,数据挖掘软件已经能够从过去需要手动分析数据的状态发展到能够自动搜索出隐藏在数据背后的预测性信息。与诸如零售业、金融机构和通信公司等目前所做的类似,数据挖掘技术*主要是被企业用于密切关注消费者的动态。像亚马逊公司和巴诺公司这样的零售企业,数据挖掘已经成功地帮助它们发现一种或多种相关联的产品,这些产品都是消费者在购买了某种商品后还很有可能购买的商品。这样一来,当一个顾客登录公司的网站购买某种商品时,网站就会跳出一个页面,上面**着这个顾客很有可能购买的另一种商品。在其他方面,数据挖掘可以识别出那些很有可能一次性消费20美元以上的顾客。为了鼓励他们在折扣优惠到期之前进行消费,这些顾客就会被特别标注出来,并会接收到专门的电子邮件或者直接提供折扣。数据挖掘是一项依赖于诸如多元回归、Logistic回归和相关分析等统计方法的技术,但是它将这些技术进行了创造性的融合,而且计算机技术包括人工智能和机器学习,使得数据挖掘更加有效。为了使用由甲骨文(Oracle)、Teradata和SAS这样的公司研发出的商业相关的数据挖掘软件包,你必须投入大量的时间和**。本书中介绍到的有关统计的概念能帮助你理解数据挖掘软件中用到的统计方法,并帮助你更好地理解这些统计信息。因为统计模型在数据挖掘的预测中扮演着重要的角色,统计学家们在处理统计模型中遇到的很多问题也同样可以用数据挖掘解决。例如,任何统计研究都涉及模型的可靠性问题。找到一个适合对特定样本的数据进行统计的模型并不一定意味着它也适用于其他数据。一个常见的检测模型可靠性的统计方法就是把样本数据分成两部分:训练数据集和检验数据集。如果用在训练数据集上的模型可以准确地预测检验数据集中的数据,那么我们就认为这个模型是可靠的。数据挖掘优于传统统计方法的一个方面是:面对极大量的数据时,数据挖掘软件可以把数据划分成两个数据集,所以某个模型就可以通过训练数据集的数据去检验其在另一个数据集上的可靠性。这样一来,数据集的划分使得数据挖掘可以创造模型并揭示彼此的关系,并很快就能检验出它们是否可以重复用在其他不同的数据上。另一方面,在应用数据挖掘技术时,应当注意的是,当我们有大量的数据时,可能会导致模型的过度拟合进而混淆数据之间到底是存在的是相关关系还是因果关系。仔细理解数据挖掘得出的结果并多做检验能帮助我们避免犯这样的错误。