第 1 部分 总体篇 第 1 章 **大数据概述 2 1.1 大数据概述 2 1.1.1 大数据基础知识 2 1.1.2 大数据关键技术 4 1.2 **大数据本质 5 1.2.1 **大数据产生的背景 5 1.2.2 **大数据来源与内容 6 1.2.3 **大数据的特征 7 参考文献 8 第 2 章 **大数据平台概述 9 2.1 **大数据平台简介 9 2.1.1 **大数据平台的作用 9 2.1.2 大数据平台处理数据的步骤 9 2.1.3 大数据平台产品 10 2.2 **大数据平台架构 11 2.2.1 基本架构 11 2.2.2 数据采集层 12 2.2.3 数据处理层 13 2.2.4 数据分析层 13 2.2.5 数据访问层 13 2.2.6 数据应用层 13 2.2.7 数据管理层 13 2.2.8 开源框架 14 2.3 **大数据平台的存储技术 14 2.3.1 HDFS 14 2.3.2 NoSQL 数据库 16 2.4 **大数据平台计算模式 19 2.4.1 大数据批处理计算 19 2.4.2 大数据查询分析计算 20 2.4.3 大数据流计算 20 2.4.4 大数据迭代计算 21 2.4.5 大数据图计算 22 2.5 **大数据平台其他组件 22 2.5.1 分布式资源管理器YARN 22 2.5.2 分布式协调服务ZooKeeper 22 2.5.3 分布式消息队列Kafka 23 2.5.4 集群管理与监控Ambari 23 2.5.5 工作流调度器Oozie 23 2.5.6 数据转换工具Sqoop 23 2.5.7 日志收集工具Flume 24 参考文献 24 第 2 部分 数据基础篇 第3 章 **大数据采集 28 3.1 **大数据采集的必要性与影响因素 28 3.1.1 **大数据采集的必要性 28 3.1.2 **大数据采集的影响因素 29 3.2 传统数据采集技术及其局限性 29 3.2.1 传感器技术 30 3.2.2 射频识别技术 30 3.2.3 条码技术 30 3.2.4 日志文件 31 3.2.5 移动互联网技术 31 3.2.6 网络爬虫技术 31 3.2.7 检索分类工具 32 3.2.8 传统数据采集技术的局限性 32 3.3 面向**大数据的平台化数据采集 33 3.3.1 平台化技术 33 3.3.2 基于平台化技术的**大数据采集 34 3.3.3 平台化**大数据采集的流程 34 3.4 平台化**大数据采集的关键技术 36 3.4.1 SOA 36 3.4.2 ESB 36 3.4.3 数据仓库 37 3.4.4 前置机 37 3.4.5 数据接口方案 38 3.4.6 其他 38 参考文献 38 第4 章 **大数据清洗 41 4.1 **大数据清洗的必要性 41 4.1.1 脏数据的产生原因 41 4.1.2 脏数据的存在形式 42 4.2 **大数据清洗的含义 45 4.2.1 数据清洗的概念 45 4.2.2 数据清洗的评价标准 45 4.3 **大数据清洗过程简述 47 4.4 **大数据的清洗流程 47 参考文献 49 第5 章 **大数据融合 50 5.1 **大数据融合的必要性 50 5.1.1 数据融合的概念 50 5.1.2 数据融合的类型 51 5.1.3 数据融合的优势 52 5.1.4 **大数据融合的必要性 52 5.2 传统数据融合技术及其局限性 53 5.2.1 统计学方法 53 5.2.2 信号处理与估计理论方法 54 5.2.3 人工智能方法 54 5.2.4 信息论方法 55 5.2.5 传统数据融合技术的局限性 55 5.3 面向**大数据的数据融合 56 5.3.1 数据融合的原理 56 5.3.2 数据融合的一般步骤 56 5.4 **大数据融合的关键技术 58 5.4.1 数据预处理 58 5.4.2 不同类型数据的处理 59 5.4.3 OLAP 引擎 60 5.4.4 D-S 证据理论融合技术 61 5.4.5 基于深度学习的多源异构数据融合 61 5.5 **大数据融合的应用实践 62 5.6 **大数据融合的支撑要素 63 参考文献 63 第3 部分 数据挖掘篇 第6 章 **大数据挖掘概述 66 6.1 **大数据挖掘的相关概念与意义 66 6.1.1 **大数据挖掘的基础知识 66 6.1.2 **大数据挖掘的意义 68 6.2 **大数据挖掘的原理与应用 69 6.2.1 **大数据挖掘的核心技术 69 6.2.2 **大数据挖掘的难点 71 6.2.3 **大数据挖掘的模型框架设计与流程 72 6.2.4 **大数据挖掘的应用 74 参考文献 77 第7 章 **大数据挖掘工具与方法 78 7.1 **大数据挖掘工具 78 7.1.1 工具分类 78 7.1.2 开源工具 79 7.1.3 非开源工具 81 7.2 **大数据挖掘方法概述 82 7.2.1 关联规则挖掘 82 7.2.2 分类挖掘分析 82 7.2.3 聚类分析 83 7.2.4 异常挖掘分析 83 7.2.5 流行病检测和预报 84 7.3 基于传统机器学习的**大数据挖掘方法 84 7.3.1 支持向量机 84 7.3.2 逻辑回归 85 7.3.3 决策树 85 7.3.4 贝叶斯网络 85 7.3.5 人工神经网络 86 7.4 基于深度学习的**大数据挖掘方法 86 7.4.1 深度学习模型 86 7.4.2 深度学习在**领域的应用 89 参考文献 90 第4 部分 可视化篇 第8 章 **大数据可视化概述 92 8.1 **大数据可视化的概念与意义 92 8.1.1 相关概念 92 8.1.2 **大数据可视化的基础 94 8.1.3 **大数据可视化的意义 95 8.2 **大数据可视化流程与设计 96 8.2.1 **大数据可视化的流程 96 8.2.2 **大数据可视化设计的基本原则 98 8.2.3 **大数据可视化设计框架 99 参考文献 100 第9 章 **大数据可视化工具与方法 102 9.1 数据可视化的常用工具 102 9.1.1 初级可视化工具 102 9.1.2 信息图表类可视化工具 103 9.1.3 地图类可视化工具 104 9.1.4 编程类可视化工具 105 9.2 精准**数据可视化的工具 106 9.2.1 基因组的可视化工具 106 9.2.2 分子结构的可视化工具 110 9.3 **大数据可视化的常用方法 112 9.3.1 **数据可视化的常用统计图 112 9.3.2 **文本数据的可视化方法 116 9.3.3 复杂**数据的可视化方法 120 参考文献 123 第5 部分 应用篇 第 10 章 实例展示:**大数据可视化分析平台 126 10.1 **大数据可视化分析平台设计 126 10.1.1 平台设计目标 126 10.1.2 平台设计思路 126 10.1.3 平台总体架构 127 10.2 **大数据可视化分析平台的功能模块 127 10.2.1 “数据概览”模块介绍 127 10.2.2 “我的研究”模块介绍 131 10.2.3 “数据分析”模块介绍 140 10.2.4 “智能搜索”模块介绍 173 10.2.5 “病人360”模块介绍 174 10.3 **大数据可视化分析平台的管理模块 179 10.3.1 数据源配置 179 10.3.2 输入建议配置 182 10.3.3 资源权限配置 183 10.3.4 指标配置 184 10.3.5 用户权限配置 185 10.3.6 日志浏览 186 10.3.7 修改密码设置 186 10.4 **大数据可视化分析平台**措施 187