随着信息技术的飞速发展,数据的产生和存储达到了**繁荣的阶段。如何从海量的数据中提取潜在的有用信息,给传统的数据处理技术提出了严峻的考验,数据挖掘方法应运而生。数据挖掘是一个多学科的交叉研究领域,不仅大学里的学术人员在研究它,商业公司的专家和技术人员也在密切地关注它和使用它;它不仅涉及人工智能领域以及统计学的应用,而且涉及数据库的管理和使用。从技术上来讲,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又潜在有用的信息和知识的过程。从商业应用来讲,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模式化的处理,从中提取辅助商业决策的关键性数据。
本书第1章对数据挖掘进行了概述,包括数据挖掘的定义、重要性、功能、步骤和常用方法等。第2章和第3章介绍了两种数据挖掘中常用的指导的学习算法、关联规则和聚类分析,它们处理的数据的特点是没有独立的需要预测或分类的变量,而只是试图从数据中发现一些固有的模式。关联规则就是要发现两个或多个事物之间的联系;聚类分析就是要把数据中具有相似性质的