本书作者常年从事计算机数据分析的教学与科研工作,并长期跟踪研究SPSS公司数据分析产品,具有计算机应用与统计分析的双重学历背景。我们深知,对于数据挖掘这样一款综合方法性的软件工具来说,一个基层的读者应该从哪些方面入手,就能很快地掌握和使用Clementine开始数据挖掘工作,并从中受益。
本书默认读者具有以下特征:具有基础的计算机操作能力;不甚了解数据挖掘的原理和方法;有自己应用领域积累的数据,渴望使用数据挖掘方法解决实际问题。 数据挖掘是当前数据分析领域中*活跃*前沿的地带。本书以数据挖掘的实践过程为主线,通过生动的应用案例,从数据挖掘实施角度,系统介绍了经典的数据挖掘方法和利用Clementine实现数据挖掘的全部过程,讲解方法从易到难,说明问题从浅至深。本书力求以*通俗的方式阐述数据挖掘方法的核心思想与基本原理,同时配合Clementine软件操作的说明,希望读者能够直观了解方法本质,尽快掌握Clementine软件使用,并应用到数据挖掘实践中。为方便读者学习,书中所有数据和案例与所附光盘内容一致。
本书适合于从事数据分析各应用领域的读者,尤其适合于商业管理、财政经济、金融保险、社会研究、人文教育等行业的相关人员。同时,也能够作为高等院校计算机类、财经类、管理类专业本科生和研究生的数据挖掘教材。 第1章 数据挖掘和Clementine概述
1.1 数据挖掘的产生背景
1.1.1 海量数据的分析需求催生数据挖掘
1.1.2 应用对理论的挑战催生数据挖掘
1.2 什么是数据挖掘
1.2.1 数据挖掘的概念
1.2.2 数据挖掘能做什么
1.2.3 数据挖掘得到的知识形式
1.2.4 数据挖掘的算法分类
1.3 Clementine软件概述
1.3.1 Clementine的窗口
1.3.2 数据流的基本管理和执行
1.3.3 数据流的其他管理
1.3.4 从一个示例看Clementine的使用
第2章 Clementine数据的读入
2.1 变量的类型
2.1.1 从数据挖掘角度看变量类型
2.1.2 从数据存储角度看变量类型
2.2 读入数据
2.2.1 读自由格式的文本文件
2.2.2 读Excel电子表格数据
2.2.3 读SPSS格式文件
2.2.4 读数据库文件
2.3 生成实验方案数据
2.4 合并数据
2.4.1 数据的纵向合并
2.4.2 数据的横向合并
第3章 Clementine变量的管理
3.1 变量说明
3.1.1 取值范围和缺失值的说明
3.1.2 变量取值有效性检查和修正
3.1.3 变量角色的说明
3.2 变量值的重新计算
3.2.1 CLEM表达式
3.2.2 变量值重新计算示例
3.3 变量类别值的调整
3.4 生成新变量
3.5 变量值的离散化处理
3.5.1 常用的分箱方法
3.5.2 变量值的离散化处理示例
3.6 生成样本集分割变量
3.6.1 样本集分割的意义和常见方法
3.6.2 生成样本集分割变量的示例
第4章 Clementine样本的管理
4.1 样本的排序
4.2 样本的条件筛选
4.3 样本的随机抽样
4.4 样本的浓缩处理
4.5 样本的分类汇总
4.6 样本的平衡处理
4.7 样本的其他管理
4.7.1 数据转置
4.7.2 数据的重新组织
第5章 Clementine数据的基本分析
5.1 数据质量的探索
5.1.1 数据的基本描述与质量探索
5.1.2 离群点和**值的修正
5.1.3 缺失值的替补
5.1.4 数据质量管理的其他功能
5.2 基本描述分析
5.2.1 计算基本描述统计量
5.2.2 绘制散点图
5.3 变量分布的探索
5.4 两分类变量相关性的研究
5.4.1 两分类变量相关性的图形分析
5.4.2 两分类变量相关性的数值分析
5.5 两总体的均值比较
5.5.1 两总体均值比较的图形分析
5.5.2 独立样本的均值检验
5.5.3 配对样本的均值检验
5.6 变量重要性的分析
5.6.1 变量重要性分析的一般方法
5.6.2 变量重要性分析的应用示例
第6章 分类预测:Clementine的决策树
6.1 决策树算法概述
6.1.1 什么是决策树
6.1.2 决策树的几何理解
6.1.3 决策树的核心问题
6.2 Clementine的C5.0算法及应用
6.2.1 信息熵和信息增益
6.2.2 C5.0的决策树生长算法
6.2.3 C5.0的剪枝算法
6.2.4 C5.0的推理规则集
6.2.5 C5.0的基本应用示例
6.2.6 C5.0的损失矩阵和Boosting技术
6.2.7 C5.0的模型评价
6.2.8 C5.0的其他话题:推理规则、交叉验证和未剪枝的决策树
6.3 Clementine的分类回归树及应用
6.3.1 分类回归树的生长过程
6.3.2 分类回归树的剪枝过程
6.3.3 损失矩阵对分类树的影响
6.3.4 分类回归树的基本应用示例
6.3.5 分类回归树的交互建…… Updater(escape("/AjaxControls/ProductComentList"), "dProductCommentList",null,{ name:"prd", value:'805404' });
本书作者其他作品: 基于EXCEL的统计应用/统计数据分析与应用丛书 常见问题: 我要提问 小时图书排行 1988:我想和这个世界谈谈(99选7特惠产品) 韩寒作品
韩寒 文学少女3:沉陷过往的愚者(99选7特惠产品)
[日]野村美月 文学少女2:渴求真爱的幽灵(99选7特惠产品) *文学的轻小说
[日]野村美月 4.陪你到世界终结(99选7特惠产品) 5.失落的秘符(99选7特惠产品) 6.幸福在哪里(朋友刀刀·第5季)(99选7特惠产品) 7.文学少女1:渴望死亡的小丑(99选7特惠产品) 8.人性的弱点(99选7特惠产品) 9.躲进世界的角落(99选7特惠产品) 10.席慕蓉经典作品(99选7特惠产品) ++