第1章 数据挖掘导论
数据挖掘是20世纪80年代末开始逐步发展起来的一个新的研究领域,它是多个学科和技术相结合的产物。本章将简要介绍数据挖掘的发展背景、概念定义、主要方法及应用案例等内容。
1.1 数据挖掘的发展背景
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们利用信息技术生产和搜集数据的能力大幅度提高,无数个数据库被用于商业管理、政府办公、科学研究和工程开发等领域,**市场中的交易数据、加油站里的汽油销售数据、旅行社的旅游信息等等,均构成了数据库系统的信息来源。近年来,数据库所管理的数据量急剧增大,人们积累的数据越来越多。例如:美国NASA的地球观测系统(EoS)每小时向地面发回约50 GB的图像数据;美国沃尔玛零售系统每天会产生约2亿条交易数据。人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。激增的数据背后隐藏着许多重要的信息,目前的数据库系统可以**地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据富有但知识贫乏”的现象。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,信息过量几乎成为人人需要面对的问题。如何才能不被信息的汪洋大海所淹没,从中及时发现有用的知识,提高信息利用率呢?要想使数据真正成为一个企业的资源,只有充分利用它为企业自身的业务决策和战略发展服务才行,否则大量的数据可能成为包袱,甚至成为垃圾。
……