《大数据处理与应用（微课版）》贾新志、龚坚平

项目准备搭建实验环境 1 任务一安装Linux操作系统 3 任务二配置Linux环境 8 任务三部署Hadoop环境 9 任务四部署Spark环境 12 任务五部署Flink环境 13 任务六安装MySQL数据库 14 任务七安装Hive 15 任务八安装ZooKeeper和Kafka 16 任务九部署Storm环境 19 项目一企业人力资源员工数据的离线分析 21 任务一企业人力资源及员工数据的获取 22 【职业能力目标】 22 【任务描述与要求】 22 【知识储备】 22 一、关系型数据库MySQL 22 二、大数据ETL采集引擎Sqoop 23 三、HDFS分布式文件系统 25 【任务计划与决策】 26 一、企业人力资源原始数据观察 26 二、企业人力资源��始数据采集 27 【任务实施】 27 一、将企业人力资源员工的原始数据导入MySQL数据库 27 二、安装并使用Sqoop完成数据的采集 28 【任务检查与评价】 30 【任务小结】 31 【任务拓展】 31 任务二清洗企业人力资源员工数据 31 【职业能力目标】 31 【任务描述与要求】 31 【知识储备】 32 一、大数据离线计算引擎 MapReduce 32 二、大数据离线计算引擎 Spark Core 35 三、大数据离线计算引擎 Flink DataSet 38 【任务计划与决策】 41 【任务实施】 41 【任务检查与评价】 45 【任务小结】 45 【任务拓展】 46 任务三企业人力资源员工数据的分析与处理 63 【职业能力目标】 63 【任务描述与要求】 63 【知识储备】 63 一、大数据分析引擎Hive 63 二、Hive的数据模型 65 【任务计划与决策】 72 【任务实施】 72 【任务检查与评价】 76 【任务小结】 77 【任务拓展】 77 项目二电商平台商品销售数据的离线分析 79 任务一电商平台商品销售数据的获取 80 【职业能力目标】 80 【任务描述与要求】 80 【知识储备】 80 【任务计划与决策】 82 【任务实施】 82 一、将电商平台订单销售的原始数据导入MySQL数据库 82 二、安装并使用DataX插件完成数据的采集 84 【任务检查与评价】 86 【任务小结】 87 【任务拓展】 87 任务二清洗电商平台商品销售数据 88 【职业能力目标】 88 【任务描述与要求】 88 【知识储备】 88 一、大数据离线计算引擎 MapReduce 88 二、大数据离线计算引擎 Spark Core 88 三、大数据离线计算引擎 Flink DataSet 88 【任务计划与决策】 88 【任务实施】 89 【任务检查与评价】 90 【任务小结】 91 【任务拓展】 91 任务三电商平台商品销售数据的离线分析 101 【职业能力目标】 101 【任务描述与要求】 101 【知识储备】 101 一、大数据离线计算引擎 MapReduce 101 二、大数据离线计算引擎 Spark Core 101 【任务计划与决策】 102 【任务实施】 102 一、需求1及其实现 102 二、需求2及其实现 105 【任务检查与评价】 110 【任务小结】 110 【任务拓展】 111 项目三网站用户访问实时Hot IP分析 113 任务一网站用户点击日志数据的获取 114 【职业能力目标】 114 【任务描述与要求】 114 【知识储备】 114 一、日志采集框架Flume 114 二、消息系统Kafka 117 【任务计划与决策】 121 【任务实施】 122 一、安装和配置Flume 122 二、配置消息系统Kafka 123 三、集成Flume和Kafka完成网站用户点击日志的采集 124 【任务检查与评价】 125 【任务小结】 126 【任务拓展】 126 任务二基于Storm的网站用户访问实时 Hot IP分析 129 【职业能力目标】 129 【任务描述与要求】 129 【知识储备】 130 【任务计划与决策】 131 【任务实施】 131 【任务检查与评价】 136 【任务小结】 137 【任务拓展】 137 任务三基于Spark 的网站用户访问实时 Hot IP分析 137 【职业能力目标】 137 【任务描述与要求】 137 【知识储备】 138 一、流式计算引擎 Spark Streaming 138 二、数据分析引擎Spark SQL 138 【任务计划与决策】 138 【任务实施】 139 【任务检查与评价】 141 【任务小结】 141 【任务拓展】 142 项目四实时分析用户信息访问数据 143 任务一用户访问数据的实时采集 144 【职业能力目标】 144 【任务描述与要求】 144 【知识储备】 144 【任务计划与决策】 144 【任务实施】 145 一、配置MySQL数据库与 Flume 145 二、集成Flume和Kafka完成网站用户访问数据的采集 146 【任务检查与评价】 148 【任务小结】 148 【任务拓展】 149 任务二基于Storm的用户访问数据的实时统计 149 【职业能力目标】 149 【任务描述与要求】 149 【知识储备】 149 【任务计划与决策】 150 【任务实施】 150 【任务检查与评价】 156 【任务小结】 157 【任务拓展】 157 任务三基于Spark 的用户访问数据的实时统计 158 【职业能力目标】 158 【任务描述与要求】 158 【知识储备】 158 【任务计划与决策】 158 【任务实施】 158 【任务检查与评价】 161 【任务小结】 162 【任务拓展】 162 项目五基于大数据平台的**系统 163 任务一基于用户和物品的**系统 164 【职业能力目标】 164 【任务描述与要求】 164 【知识储备】 164 一、**系统的典型架构 164 二、协同过滤的**算法 164 三、相似度矩阵 165 四、Spark MLlib库 166 【任务计划与决策】 166 【任务实施】 167 【任务检查与评价】 172 【任务小结】 173 【任务拓展】 173 任务二基于ALS的**系统 173 【职业能力目标】 173 【任务描述与要求】 173 【知识储备】 173 【任务计划与决策】 175 【任务实施】 175 【任务检查与评价】 178 【任务小结】 179 【任务拓展】 179 项目六基于CDC(获取数据变更)的实时数据采集 181 任务一基于Canal完成MySQL实时数据的采集 182 【职业能力目标】 182 【任务描述与要求】 182 【知识储备】 182 一、MySQL主从复制实现 182 二、Canal在系统中的位置 183 三、Canal的体系结构 183 【任务实施】 184 一、配置MySQL数据库 184 二、配置Canal采集MySQL 数据 185 【任务检查与评价】 188 【任务小结】 189 【任务拓展】 189 任务二基于Flink CDC完成MySQL实时数据的采集 192 【职业能力目标】 192 【任务描述与要求】 192 【知识储备】 192 【任务实施】 193 【任务检查与评价】 197 【任务小结】 198 【任务拓展】 198 参考文献 199

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

大数据处理与应用（微课版）

猜你也喜欢

新书比价

图书详情

内容提要

目录

与描述相符

消费者保障

新手上路

付款方式

个人账户