第1章 数据挖掘简介
1.1 数据挖掘的定义
Data mining is the process of seeking interesting or valuable information in large database.
数据挖掘(data mining)是近年来数据库应用领域中相当热门的话题。数据挖掘一般是指在数据库或数据仓库中,利用各种分析方法与技术,对过去累积的大量繁杂数据进行分析、归纳与整合等工作,提取出有用的信息,例如趋势(trend)、模式(pattem)及相关性(relationship)等,并将其中有价值的信息作为决策参考提供给决策者。通俗地说,数据挖掘就是从数据中发掘信息或知识,有人称为知识发现(knowledge discovery in database,KDD),也有人称为数据考古学(data archeology)、数据模式分析(data pattern analysis)或功能相依分析(functional dependency analysis)。目前,数据挖掘已经成为数据库系统、机器学习、统计方法等多个学科相互交叉的重要领域,而在实务界,越来越多的企业开始认识到,实施数据挖掘可以为企业带来更多潜在的商业机会。
但我们对数据挖掘应有一个正确的认知:数据挖掘不是一个无所不能的魔法。数据挖掘的种种工具都是从数据中发掘出各种可能成立的“预言”,并对其潜在价值加以“估计”,但数据挖掘本身并不能在实际中查证和确认这些假设,也不能判断这些假设的实际价值。
1.2 数据挖掘的重要性
现代企业经常会搜集大量的数据,这些数据涵盖了市场、客户、供货商,及其竞争对手等重要信息,但是由于信息超载与无结构化,企业的决策者无法充分利用这些庞大的数据资源,仅能使用其中的一小部分,这可能导致决策失误,甚至出现决策错误。而借助数据挖掘技术,企业完全有能力从浩瀚的数据海洋中,挖掘出全面而又有价值的信息和知识,并作为决策支持之用,进而形成企业独有的竞争优势。
……