第1章 大数据概论 1.1 大数据技术简介 1.1.1 信息技术的发展简史 1.1.2 大数据概述 1.2 大数据时代 1.2.1 大数据的产生和作用 1.2.2 大数据时代的10个重大变化 1.3 大数据处理的基本流程 1.3.1 数据抽取与集成 1.3.2 数据分析 1.3.3 数据解释 1.4 大数据开发涉及到的关键技术 1.4.1 大数据采集技术 1.4.2 大数据预处理技术 1.4.3 大数据存储及管理技术 1.4.4 大数据处理 1.4.5 大数据分析及挖掘技术 1.4.6 大数据展示技术 第2章 大数据采集技术概述 2.1 大数据分类 2.2 大数据采集方法分类 2.3 通过系统日志采集大数据 2.3.1 Flume的基本概念 2.3.2Flume使用方法 2.3.3Flume应用案例 2.4 通过网络爬虫采集大数据 2.4.1网络爬虫原理 2.4.2网络爬虫工作流程 2.4.3网络爬虫抓取策略 2.5 Scrapy网络爬虫简介 2.5.1.Scrapy架构 2.5.2Scrapy安装与应用案例 第3章 大数据预处理架构和方法简介 3.1大数据预处理整体架构 3.1.1数据质量问题分类 3.2大数据预处理方法 3.3大数据预处理之数据��洗 3.3.1遗漏数据处理 3.3.2噪声数据处理 3.3.3不一致数据处理 3.4大数据预处理之数据集成 3.4.1模式集成问题 3.4.2冗余问题 3.4.3数据值冲突检测与消除问题 3.5大数据预处理之数据转换 3.5.1平滑处理 3.5.2合计处理 3.5.3数据泛化处理 3.5.4规格化处理 3.5.5属性构造处理 3.6大数据预处理之数据消减 3.6.1数据立方合计 3.6.2维数消减 3.6.3数据压缩 3.6.4数据块消减 3.7离散化和数值概念层次树简介 3.7.1数值概念层次树 3.7.2类别概念层次树 第4章 大数据处理技术 4.1分布式计算 4.2服务器集群 4.3大数据的技术基础 4.4GFS、MapReduce和BigTable:Google的三种大数据处理系统 4.4.1GFS 90 4.4.2MapReduce 4.4.3BigTable 第5章 Hadoop大数据处理框架简介 5.1Hadoop系统简介 5.1.1Hadoop生态圈 5.1.2Hadoop版本演进 5.1.3Hadoop发行版本 5.2HadoopHDFS分布式文件 5.2.1HDFS基本原理和设计理念 5.2.2HDFS架构和实现机制简介 5.2.3HDFS读取和写入数据简介 5.3HDFS两种操作方式:命令行和JavaAPI 5.3.1HDFS常用命令 5.3.2HDFS的Web界面 5.3.3HDFS的JavaAPI 第6章 NoSQL非关系型数据库简介 6.1NoSQL概述 6.1.1NoSQL的起因 6.1.2NoSQL的特点 6.1.3NoSQL数据库面临的挑战 6.2NoSQL数据库类型简介 6.2.1键值数据库 6.2.2列式数据库 6.2.3文档数据库 6.4.4图形数据库 第7章 HadoopHBase数据库简介 7.1HBase列式数据模型简介 7.1.1数据模型概述 7.1.2数据模型的基本概念 7.1.3概念视图 7.1.4物理视图 7.2HBaseShell常用命令和基本操作 7.2.1—般操作 7.2.2DDL操作 7.2.3DML操作 7.2.4HBase表实例 7.3HBase的物理存储和逻辑架构 7.3.1HBase的物理存储 7.3.2HBase的逻辑架构 7.4HBase常用JavaAPI 7.4.1HBase的常用JavaAPI 7.5HBaseJavaAPI编程实例 7.5.1建立连接和关闭连接 7.5.2创建表 第8章 HadoopMapReduce简介 8.1批处理模式 8.1.1MapReduce简释 8.2MapReduce基本思想 8.2.1.大数据处理思想:分而治之 8.2.2构建抽象模型:Map函数和Reduce函数 8.2.3Map函数和Reduce函数 8.3HadoopMapReduce架构 8.4HadoopMapReduce工作流程 8.5MapReduce实例分析:单词计数 8.5.1设计思路 8.5.2处理过程 8.6MapReduce执行流程和Shuffle过程 8.6.1HadoopMapReduce作业执行流程 8.6.2HadoopMapReduce的Shuffle阶段 8.6.3HadoopMapReduce的主要特点 8.7MapReduce编程实例:单词计数 8.7.1任务准备 8.7.2编写Map程序 8.7.3编写Reduce程序 8.7.4编写main函数 8.7.5核心代码包 第9章 Spark简介 9.1Spark与Hadoop 9.1.1HadoopMapRedcue缺点 9.1.2Spark的优势 9.1.3Spark的适用场景 9.1.4Spark安装与环境配置 9.2SparkRDD 9.2.1RDD的基本概念 9.2.2RDD基本操作 9.2.3RDD血缘关系 9.2.4RDD依赖类型 9.2.5阶段划分 9.2.6RDD缓存 9.3Spark总体架构和运行流程 9.3.1Spark总体架构 9.3.2Spark运行流程 9.4Spark生态圈简介 9.4.1SparkCore 9.4.2SparkStreaming 9.4.3SparkSQL 9.4.4SparkMLlib 9.4.5SparkGraphX 9.5Spark开发实例 9.5.1启动SparkShell 9.5.2SparkShell使用 9.5.3编写Java应用程序 9.6SparkStreaming简介 9.6.1SparkStreaming的系统架构 9.6.2SparkStreaming编程模型 9.6.3SparkDStream相关操作 9.7SparkStreaming编程实战(开发实例) 9.7.1流数据模拟器 第10章 数据挖掘 10.1数据挖掘概述 10.1.1什么是数据挖掘 10.1.2数据挖掘的价值类型 10.1.3数据挖掘算法的类型 10.2 SparkMLlib简介 10.2.1SparkMLlib的构成 10.2.2SparkMLlib的优势 10.3数据挖掘之分类和预测简介 10.3.1分类的基本概念 10.3.2预测的基本概念 10.4决策树和朴素贝叶斯算法简介 10.4.1决策树算法 1.决策树案例 2.决策树的建立 3.SparkMLlib决策树算法 4.SparkMLlib决策树算法实例 5.决策树算法优缺点 10.5朴素贝叶斯算法 1.贝叶斯公式 2.工作原理 3.SparkMLlib朴素贝叶斯算法 4.SparkMLlib朴素贝叶斯算法实例 5.算法优缺点 10.6回归分析预测技术简介 1.线性回归 2.SparkMLlib的SGD线性回归算法 3.SparkMLlib的SGD线性回归算法实例 4.逻辑回归 10.7聚类分析 10.7.1基本概念 10.7.2聚类分析方法的类别 1.基于划分的聚类方法 2.基于层次的聚类方法 3.基于密度的聚类方法 4.基于网格的聚类方法 5.基于模型的聚类方法 10.8k-means聚类算法简介 1.基本思想 2.SparkMLlib中的k-means算法 3.MLlib中的k-means算法实例 4.算法优缺点 10.9DBSCAN聚类算法简介 1.基本概念 2.算法描述 3.算法实例 4.DBSCAN算法算法优缺点 10.10数据挖掘之关联规则分析简介 10.10.1概述 10.10.2基本概念 10.10.3关联分析步骤 2.发现关联规则 10.11Apriori算法和FP-Tree算法简介 10.11.1Apriori关联分析算法 1.Apriori算法 2.由频繁项集产生关联规则 3.算法优缺点 10.11.2FP-Tree关联分析算法 1.FP—Tree的构造 2.FP-Tree的挖掘 3.MLlib的FP-Growth算法实例 第11章 基于大数据的精准营销 11.1精准营销概述 11.2大数据精准营销过程 1. 助力客户信息收集与处理 2. 客户细分与市场定位 3. 辅助营销决策与营销战略设计 4. 精准的营销服务 5. 营销方案设计 6. 营销结果反馈 11.3大数据精准营销方式 1. 实时竞价(RTB) 2. 交叉销售 3. 点告 4. 窄告 5. 定向广告推送 第12章 基于大数据的个性化**系统 12.1**系统概述 12.2**机制 1. 基于人口统计学的** 2. 基于内容的** 3. 基于协同过滤的** 4. 混合**机制 12.3**系统的应用 12.3.1**在电子商务中的应用:Amazon 12.3.2**在社交网站中的应用:豆瓣 第13章 大数据预测 13.1预测是大数据的核心价值 13.2大数据预测的思维改变 1. 实样而非抽样 2. 效率而非** 3. 相关性而非因果关系 13.3大数据预测的典型应用领域 1. 天气预报 2. 体育赛事预测 3. 股票市场预测 4. 市场物价预测 5. 用户行为预测 6. 人体健康预测 7. 疾病疫情预测 8. 灾害灾难预测 9. 环境变迁预测 10. 交通行为预测 11. 能源消耗预测 第14章 大数据在金融行业的应用 14.1大数据可以应用的行业 1. 互联网和营销行业。 2. 信息化水平比较高的行业。 3. 政府及公用事业行业。 4. 制造业、物流、**、农业等行业。 14.2银行大数据应用场景 1. 客户画像 2. 精准营销 3. 风险管控 4. 运营优化 14.3证券行业数据应用场景 1. 股价预测 2. 客户关系管理 3. 投资景气指数预测 14.4保险行业数据应用场景 1.客户细分和精细化营销 2.欺诈行为分析 3.精细化运营 第15章 大数据在互联网行业的应用 15.1精准营销 15.2.个性化服务 15.3商品个性化** 1. 电子商务网站 2. 电影视频网站 3. 网络电台 4. 社交网络 5. 其他应用 第16章 大数据在物流行业的应用 16.1物流大数据的作用 1. 提高物流的智能化水平 2. 降低物流成本 3. 提高用户服务水平 16.2物流大数据应用案例 1. 车货匹配 2. 运输路线优化 3. 库存预测 4. 设备修理预测 5. 供应链协同管理 16.3Amazon物流大数据应用 1. 订单与客户服务中的大数据应用 2. 智能入库管理技术 3. 智能拣货和智能算法 16.4国际物流大数据应用 1. DHL 2. FedEx 3. FleetBoard 4. Con—WayFreight 5. C.H.Robinson 6. FRA 16.5大数据的其他应用领域 1.大数据帮助企业挖掘市场机会,探寻细分市场 2.大数据提高决策能力 3.大数据创新企业管理模式,挖掘管理潜力 4.大数据变革商业模式,催生产品和服务的创新 第17章 大数据治理 17.1大数据治理的策略 1. 大数据治理的理解 2.在大数据治理的过程,应该遵循以下规则。 3.大数据治理存在的误区 17.2元数据与主数据管理 1. 元数据 2. 主数据 3. 主数据和元数据的关系 4. 元数据管理,是数据治理的核心和基础 17.3数据质量管理 1. 数据质量管理的目标 2. 数据质量问题产生的根源 3. 数据质量评估的标准 4. 数据质量管理的流程 5. 数据质量管理的取与舍 17.4数据标准管理 1. 大数据标准体系 2. 关于数据标准认识的几个误区 3. 数据标准的定义 4. 如何制定数据标准 5. 数据标准化的难题 6. 如何应对这些难题 7. 数据标准、主数据、元数据间的关系 17.5数据资产管理 1. 数据资产与数据资产管理的定义 2. 数据资产管理的现状和挑战 3. 数据资产管理的目标 4. 数据资产管理与数据治理的关系 17.6大数据治理发展之路 1. 零散化存放是数据问题根源 2. 大数据治理带来全面解决之道 3. 大数据治理的商业价值 4. 高质量数据是企业业务创新、管理决策的基础。 5. 标准化的数据是优化商业模式、指导生产经营的前提 6. 多角度、全方位的数据是开展市场营销、争夺客户资源的关键 17.7大数据治理的五个核心要素 17.8自服务大数据治理是解决问题之道 1. 建好数据管理体系,快速识别数据 2. 建立数据治理体系,监控并快速发现问题 3. 建立数据应用体系,共享和**使用数据 17.9大数据治理技术需要不断革新 1. 管起来:数据资产的自动化采集、存储技术 2. 有保障:数据质量探查和提升技术 3. 用起来:自助化数据服务构建技术 17.9如何选择合适的大数据治理工具 1. 大数据治理的核心——元数据管理工具 2. 大数据治理的实践——自助化数据服务平台 17.10大数据治理在人工智能的作用 1. 数据治理 2. 数据建模 3. 数据采集 4. 数据汇聚 5. 分析配置 6. 数据展现 7. 建设意见 17.11区块链和AI如何帮助主数据管理 1. 主数据管理的重要性 2. AI在主数据管理中的作用 3. 区块链在保护主数据管理方面的作用