前 言
数据挖掘是当前数据分析领域中*活跃*前沿的地带。
任何事物都有定性和定量两个方面,定量则产生数据。从数据分析入手是我们认识事物本质的基本手段。任何事物都是互相关联着的,从数据分析入手是我们把握事物之间联系的基本方法。任何事物都在永恒地变化发展着,从数据分析入手是我们探索事物发展规律的基本思路。所以我们进行数据分析,既是一种世界观,也是一种方法论。我们在研究着丰富多彩的客观世界的同时,也体现着分析者主观的智慧和自身的价值。
随着中国社会经济的蓬勃发展,在错综复杂的宏观、中观和微观的共同作用下,战略决策和战术选择都显得敏感而关键,越来越多的人们加入到数据分析的行列中来。这是一个非常富有挑战性的工作,不但有意思而且有意义。
IBM公司于2009年1月公布了其“智慧地球”战略。该战略的主要思想是,将传感设备或智能仪表嵌入到建筑、电力、交通、管道等各种物体中,进行数据自动采集,之后基于互联网形成物物相联的物联网,然后通过**计算机和云计算将数据整合,进行智能化分析和建模,从而实现社会与物理世界的融合。这是一个未来理想化的信息世界图景。
在这个智慧系统中,其核心是数据处理。为此,IBM公司于2009年7月斥资12亿美元收购了**的SPSS 统计分析软件公司,将其应用广泛的SPSS统计分析软件和Clementine数据挖掘软件纳入麾下。同时对软件产品进行了整合,将Clementine更新命名为PASW(Predictive Analytics SoftWare)Modeler,并快速推向市场。
目前,SPSS Clementine软件已经连续若干年蝉联数据挖掘应用的**,而业界对于PASW Modeler的认知则刚刚开始。所以本书继续沿用为广大读者所熟悉的Clementine这个名字。
Clementine软件不但将计算机科学中许多机器学习的**算法带入到数据分析中来,同时也综合了一些行之有效的数据挖掘方法,成为内容*为全面、功能*为强大的数据挖掘产品。
Clementine软件充分利用计算机系统的运算处理能力和图形展现能力,将方法、应用与工具有机地融合为一体,是解决数据挖掘问题的*理想工具。
Clementine软件继续保持了SPSS产品的一贯风格:界面友好且容易使用。复杂的数学算法和冗余的输出结果被软件隐藏在程序系统内部。Clementine软件始终把自己的应用对象锁定在实际部门的业务分析人员,而不是一个数据分析专家。这种“傻瓜型”软件经常遭到一些精英学者的指摘,但是这恰恰成为Clementine成功开拓自己应用疆域的*有效利器。
本书作者常年从事计算机数据分析的教学与科研工作,并长期跟踪研究SPSS公司数据分析产品,具有计算机应用与统计分析的双重学历背景。我们深知,对于数据挖掘这样一款综合方法性的软件工具来说,一个基层的读者应该从哪些方面入手,就能很快地掌握和使用Clementine开始数据挖掘工作,并从中受益。
本书默认读者具有以下特征:具有基础的计算机操作能力;不甚了解数据挖掘的原理和方法;有自己应用领域积累的数据,渴望使用数据挖掘方法解决实际问题。
所以,针对上述读者群,本书的特点是:
1.以数据挖掘过程为线索介绍Clementine软件
目前,具备基本的计算机操作能力已经不是读者的障碍,数据挖掘的过程与方法才是读者关心的主题和应用的难点。各领域众多的读者所面临的问题是:自己拥有的一批数据不知道如何使用Clementine进行组织,不知道如何利用Clementine对它们进行基本加工和整理;其次,不知道选择Clementine中的哪些方法对数据进行分析,不知道如何解释分析结果。
因此,本书以数据挖掘的实践过程为主线,从Clementine数据管理入手,说明问题从浅至深,讲解方法从易到难。这样,能使读者在较短时间内掌握Clementine的基本功能和一般方法,并可快速地运用于实际工作中。
2.数据挖掘方法、软件操作、案例分析的有机结合
目前,由于数据挖掘方法的中文资料相对不足,Clementine相关书籍都比较侧重对其英文手册的翻译介绍,侧重于计算机操作过程的描述。而对数据挖掘方法则较多地罗列数学公式,对于输出结果也缺少恰当的解释。
本书作者配合实际案例,侧重数据挖掘方法核心思想和基本原理的阐述,使得读者可以直观理解方法,并正确掌握方法的应用范围,不至于滥用或者误用。同时介绍软件操作,使得读者能尽快熟悉Clementine软件,从而在理解方法与掌握操作的基础上对输出结果进行合理的解释。
3.数据挖掘方法讲解通俗,软件操作过程说明翔实
针对初学者的特点,本书力求以*通俗的方式对数据挖掘方法的核心思想与基本原理进行讲解,同时避免大量罗列数学公式、数学推导与数学证明,目的是使读者能够直观地了解方法的本质,并正确运用;介绍方法的同时也紧紧围绕Clementine的输出结果展开,以使读者理解分析结论的重要性,会合理地引用分析结果。另外,本书对Clementine的操作过程也给出了较为翔实的说明,但并非是对菜单功能清单的描述,而是将其穿插于分析案例的实现过程中。
本书适合于从事数据分析各应用领域的读者,尤其适合于商业管理、财政经济、金融保险、社会研究、人文教育等行业的相关人员。同时,也能够作为高等院校计算机类、财经类、管理类专业本科生和研究生的数据挖掘教材。
本书共分十章,由薛薇、陈欢歌执笔完成,全书*后由薛薇审核定稿。本书所附光盘配备全书的案例数据和数据流文件。
由于水平所限,书中难免出现错误,敬请读者批评指正。
编著者