第1篇基础篇 第1章数据挖掘概述 1.1什么是数据挖掘 1.1.1数据、信息、知识和智慧 1.1.2数据挖掘的定义 1.1.3数据挖掘的功能 1.1.4数据挖掘的发展简史 1.2数据挖掘的基本步骤及方法 1.2.1数据挖掘的基本步骤 1.2.2数据挖掘的任务 1.2.3数据挖掘的分析方法 1.3数据挖掘与统计学的关系 1.3.1数据挖掘与统计学的联系 1.3.2数据挖掘与统计学的区别 1.4数据挖掘与机器学习的关系 1.4.1数据挖掘与机器学习的联系 1.4.2数据挖掘与机器学习的区别 1.5数据挖掘的十大经典算法 1.6数据挖掘的典型应用 习题1 第2章Python数据分析基础 2.1Python程序概述 2.1.1基础数据类型 2.1.2变量和赋值 2.1.3操作符和表达式 2.1.4字符串 2.1.5流程控制 2.1.6用户函数 2.1.7lambda函数 2.2Python常用的内置数据结构 2.2.1列表 2.2.2元组 2.2.3字典 2.2.4集合 2.3正则表达式 2.3.1概述 2.3.2常用方法 2.3.3提取网页中的信息 2.4文件的操作 2.4.1文件的打开与关闭 2.4.2文件的读/写操作 2.4.3文件的其他操作 习题2 第3章Python数据挖掘中的常用模��� 3.1NumPy模块 3.1.1NumPy数据类型 3.1.2NumPy基本运算 3.1.3生成随机数的常用函数 3.1.4对象转换 3.1.5数组元素和切片 3.2Pandas模块 3.2.1Pandas中的数据结构 3.2.2DataFrame的基本属性 3.2.3DataFrame的常用方法 3.2.4DataFrame的数据查询与编辑 3.2.5Pandas数据的四则运算 3.2.6函数变换 3.2.7排序 3.2.8汇总与统计 3.2.9数据的分组与统计 3.2.10Pandas数据的读取与存储 3.3Matplotlib图表绘制基础 3.3.1Matplotlib简介 3.3.2Matplotlib绘图基础 3.3.3使用Matplotlib简单绘图 3.3.4文本注解 3.4Scikitlearn 3.4.1Scikitlearn的主要功能 3.4.2Scikitlearn自带的小规模数据集 3.4.3使用Scikitlearn生成数据集 3.5股票数据的简单分析 3.5.1抓取股票数据 3.5.2股票数据的各指标折线图 3.5.3各股票的5分钟涨幅柱状图 3.5.4股票各指标之间的关系对比 习题3 第2篇数据预处理篇 第4章数据的描述与可视化 4.1概述 4.1.1数据的描述 4.1.2数据的可视化 4.2数据对象与属性类型 4.2.1数据对象 4.2.2属性与属性类型 4.3数据的基本统计描述 4.3.1**趋势的度量 4.3.2数据散布的度量 4.4数据对象的相似性度量 4.4.1数据矩阵与相似矩阵 4.4.2标称属性的相异性 4.4.3二元属性的相异性 4.4.4数值属性的相似性度量 4.4.5序数属性的相似性度量 4.4.6混合类型属性的相似性 4.4.7余弦相似性 4.5几种数据可视化技术 4.5.1基于像素的可视化技术 4.5.2几何投影技术 4.5.3基于图符的可视化技术 4.5.4层次可视化技术 4.5.5高维数据的可视化 4.5.6文本词云图 习题4 第5章数据采集和预处理 5.1概述 5.1.1数据采集概述 5.1.2数据采集的方法 5.1.3数据预处理概述 5.2数据清洗 5.2.1缺失值清洗 5.2.2异常值清洗 5.2.3格式内容清洗 5.2.4逻辑错误清洗 5.2.5非需求数据清洗 5.2.6关联性验证 5.3数据集成 5.3.1数据集成过程中的关键问题 5.3.2Python数据集成 5.4数据标准化 5.4.1zscore方法 5.4.2极差标准化方法 5.4.3*大**值标准化方法 5.5数据归约 5.5.1维归约 5.5.2数量归约 5.5.3数据压缩 5.6数据变换与数据离散化 5.6.1数据变换 5.6.2数据离散化 习题5 第3篇数据挖掘算法描述和应用篇 第6章分类模型 6.1概述 6.1.1基本概念 6.1.2训练集和测试集 6.1.3分类的一般流程 6.2KNN分类模型 6.2.1KNN算法概述 6.2.2KNN算法描述 6.2.3使用Python实现KNN分类算法 6.2.4K值的确定 6.3Rocchio分类模型 6.3.1Rocchio算法概述 6.3.2Rocchio算法的原理及分类器的构建 6.3.3使用Python实现Rocchio文本分类 6.4决策树分类模型 6.4.1决策树分类概述 6.4.2决策树的生成原理 6.4.3ID3/ID4.5/CART算法 6.4.4决策树的应用 6.5贝叶斯分类模型 6.5.1贝叶斯分类概述 6.5.2朴素贝叶斯分类器 6.5.3朴素贝叶斯模型的优缺点 6.5.4朴素贝叶斯模型的Python实现 6.6支持向量机 6.6.1SVM的基本原理 6.6.2SVM分类的基本方法 6.6.3使用Python实现SVM分类的案例 6.7分类模型的评估与选择 6.7.1分类模型的性能评估 6.7.2分类模型的选择方法 习题6 第7章聚类分析 7.1概述 7.1.1聚类分析的概念 7.1.2聚类分析的特征 7.1.3聚类分析的基本步骤 7.2基于划分的聚类方法 7.2.1kmeans聚类方法 7.2.2kmedoids聚类方法 7.2.3kmeans与kmedoids的区别 7.3基于层次的聚类方法 7.3.1簇间距离度量方法 7.3.2基于层次的聚类算法 7.3.3基于层次聚类算法的Python实现 7.4基于密度的聚类方法 7.4.1与密度聚类相关的概念 7.4.2DBSCAN算法 7.4.3OPTICS算法 7.4.4DENCLUE算法 7.5基于网格的聚类方法 7.5.1基于网格的聚类概述 7.5.2CLIQUE算法 7.5.3STING算法 7.5.4基于网格聚类算法的Python实现 7.6基于模型的聚类方法 7.6.1基于模型的聚类概述 7.6.2EM算法 7.6.3COBWEB算法 7.6.4用EM算法求解高斯混合模型 7.7聚类评估 7.7.1估计聚类趋势 7.7.2确定簇数 7.7.3测定聚类质量 习题7 第8章关联规则分析 8.1概述 8.1.1关联规则概述 8.1.2关联规则的分类 8.2关联规则的相关概念 8.2.1基本概念 8.2.2支持度、置信度和提升度 8.2.3频繁项集 8.3Apriori算法 8.3.1Apriori算法的思想 8.3.2Apriori算法的描述 8.3.3Apriori算法的Python实现 8.4FPGrowth算法 8.4.1FPGrowth算法采用的策略 8.4.2构建FPTree 8.4.3从FPTree中挖掘频繁模式 8.4.4FPGrowth算法的Python实现 8.5Eclat算法 8.5.1Eclat算法概述 8.5.2Eclat算法的Python实现 8.6关联规则的典型应用场景 习题8 第9章预测模型 9.1预测模型概述 9.1.1预测方法的分类 9.1.2预测分析的一般步骤 9.2回归分析预测模型 9.2.1一元线性回归预测模型 9.2.2多元线性回归预测模型 9.2.3非线性回归预测模型 9.2.4逻辑回归模型 9.2.5多项式回归模型 9.3趋势外推法预测模型 9.3.1趋势外推法概述 9.3.2常用的趋势外推法预测模型 9.3.3趋势外推法的Python实现 9.4时间序列预测法模型 9.4.1时间序列预测法概述 9.4.2常用的时间序列预测法模型 习题9 第4篇后续学习引导篇 第10章深度学习简介 10.1深度学习概述 10.1.1人工智能、机器学习和深度学习的关系 10.1.2深度学习的发展历程 10.2感知机 10.2.1感知机的起源 10.2.2感知机的局限性 10.3前馈神经网络 10.3.1神经元 10.3.2前馈神经网络概述 10.3.3训练与预测 10.4反向传播算法 10.4.1反向传播学习算法 10.4.2反向传播学习的Python实现 10.5卷积神经网络 10.5.1卷积神经网络概述 10.5.2卷积神经网络的整体结构 10.6循环神经网络 10.6.1循环神经网络概述 10.6.2循环神经网络的设计模式 10.6.3循环神经网络的运算 10.6.4循环神经网络的Python实现 10.7生成对抗网络 10.7.1生成对抗网络概述 10.7.2生成对抗网络算法 习题10 参考文献