您好,欢迎光临有路网!
大数据处理与应用(微课版)
QQ咨询:
有路璐璐:

大数据处理与应用(微课版)

  • 作者:贾新志、龚坚平
  • 出版社:清华大学出版社
  • ISBN:9787302646723
  • 出版日期:2023年12月01日
  • 页数:0
  • 定价:¥43.00
  • 分享领佣金
    手机购买
    城市
    店铺名称
    店主联系方式
    店铺售价
    库存
    店铺得分/总交易量
    发布时间
    操作

    新书比价

    网站名称
    书名
    售价
    优惠
    操作

    图书详情

    内容提要
    《大数据处理与应用(微课版)》以项目驱动的方式详细讲解大数据生态体系架构各方面的知识。主要涉及ETL的数据采集与清洗、离线数据仓库的构建和实时数据仓库的构建。 《大数据处理与应用(微课版)》分为三个模块:模块一介绍大数据离线数据处理与分析,包含项目一和项目二,知识点覆盖HDFS、Hive、Sqoop、MapReduce、Spark Core和Flink DataSet;模块二介绍大数据实时数据处理与分析,包含项目三和项目四,知识点覆盖Kafka、Flume、Spark Streaming和Spark SQL;模块三介绍大数据处理与分析的扩展知识,包含项目五和项目六,项目五为基于大数据分析处理实现的**系统,项目六为大数据ETL数据采集的CDC技术。 《大数据处理与应用(微课版)》可作为高等院校大数据与相关专业学生的教材,也可作为具有一定的Java编程基础的读者阅读,如平台架构师、开发人员和运维管理人员。
    目录
    项目准备 搭建实验环境 1 任务一 安装Linux操作系统 3 任务二 配置Linux环境 8 任务三 部署Hadoop环境 9 任务四 部署Spark环境 12 任务五 部署Flink环境 13 任务六 安装MySQL数据库 14 任务七 安装Hive 15 任务八 安装ZooKeeper和Kafka 16 任务九 部署Storm环境 19 项目一 企业人力资源员工数据的离线分析 21 任务一 企业人力资源及员工数据的获取 22 【职业能力目标】 22 【任务描述与要求】 22 【知识储备】 22 一、关系型数据库MySQL 22 二、大数据ETL采集引擎Sqoop 23 三、HDFS分布式文件系统 25 【任务计划与决策】 26 一、企业人力资源原始数据观察 26 二、企业人力资源���始数据采集 27 【任务实施】 27 一、将企业人力资源员工的原始 数据导入MySQL数据库 27 二、安装并使用Sqoop完成数据的 采集 28 【任务检查与评价】 30 【任务小结】 31 【任务拓展】 31 任务二 清洗企业人力资源员工数据 31 【职业能力目标】 31 【任务描述与要求】 31 【知识储备】 32 一、大数据离线计算引擎 MapReduce 32 二、大数据离线计算引擎 Spark Core 35 三、大数据离线计算引擎 Flink DataSet 38 【任务计划与决策】 41 【任务实施】 41 【任务检查与评价】 45 【任务小结】 45 【任务拓展】 46 任务三 企业人力资源员工数据的分析与 处理 63 【职业能力目标】 63 【任务描述与要求】 63 【知识储备】 63 一、大数据分析引擎Hive 63 二、Hive的数据模型 65 【任务计划与决策】 72 【任务实施】 72 【任务检查与评价】 76 【任务小结】 77 【任务拓展】 77 项目二 电商平台商品销售数据的离线分析 79 任务一 电商平台商品销售数据的获取 80 【职业能力目标】 80 【任务描述与要求】 80 【知识储备】 80 【任务计划与决策】 82 【任务实施】 82 一、将电商平台订单销售的原始 数据导入MySQL数据库 82 二、安装并使用DataX插件完成 数据的采集 84 【任务检查与评价】 86 【任务小结】 87 【任务拓展】 87 任务二 清洗电商平台商品销售数据 88 【职业能力目标】 88 【任务描述与要求】 88 【知识储备】 88 一、大数据离线计算引擎 MapReduce 88 二、大数据离线计算引擎 Spark Core 88 三、大数据离线计算引擎 Flink DataSet 88 【任务计划与决策】 88 【任务实施】 89 【任务检查与评价】 90 【任务小结】 91 【任务拓展】 91 任务三 电商平台商品销售数据的离线分析 101 【职业能力目标】 101 【任务描述与要求】 101 【知识储备】 101 一、大数据离线计算引擎 MapReduce 101 二、大数据离线计算引擎 Spark Core 101 【任务计划与决策】 102 【任务实施】 102 一、需求1及其实现 102 二、需求2及其实现 105 【任务检查与评价】 110 【任务小结】 110 【任务拓展】 111 项目三 网站用户访问实时Hot IP分析 113 任务一 网站用户点击日志数据的获取 114 【职业能力目标】 114 【任务描述与要求】 114 【知识储备】 114 一、日志采集框架Flume 114 二、消息系统Kafka 117 【任务计划与决策】 121 【任务实施】 122 一、安装和配置Flume 122 二、配置消息系统Kafka 123 三、集成Flume和Kafka完成网站 用户点击日志的采集 124 【任务检查与评价】 125 【任务小结】 126 【任务拓展】 126 任务二 基于Storm的网站用户访问实时 Hot IP分析 129 【职业能力目标】 129 【任务描述与要求】 129 【知识储备】 130 【任务计划与决策】 131 【任务实施】 131 【任务检查与评价】 136 【任务小结】 137 【任务拓展】 137 任务三 基于Spark 的网站用户访问实时 Hot IP分析 137 【职业能力目标】 137 【任务描述与要求】 137 【知识储备】 138 一、流式计算引擎 Spark Streaming 138 二、数据分析引擎Spark SQL 138 【任务计划与决策】 138 【任务实施】 139 【任务检查与评价】 141 【任务小结】 141 【任务拓展】 142 项目四 实时分析用户信息访问数据 143 任务一 用户访问数据的实时采集 144 【职业能力目标】 144 【任务描述与要求】 144 【知识储备】 144 【任务计划与决策】 144 【任务实施】 145 一、配置MySQL数据库与 Flume 145 二、集成Flume和Kafka完成网站 用户访问数据的采集 146 【任务检查与评价】 148 【任务小结】 148 【任务拓展】 149 任务二 基于Storm的用户访问数据的 实时统计 149 【职业能力目标】 149 【任务描述与要求】 149 【知识储备】 149 【任务计划与决策】 150 【任务实施】 150 【任务检查与评价】 156 【任务小结】 157 【任务拓展】 157 任务三 基于Spark 的用户访问数据的 实时统计 158 【职业能力目标】 158 【任务描述与要求】 158 【知识储备】 158 【任务计划与决策】 158 【任务实施】 158 【任务检查与评价】 161 【任务小结】 162 【任务拓展】 162 项目五 基于大数据平台的**系统 163 任务一 基于用户和物品的**系统 164 【职业能力目标】 164 【任务描述与要求】 164 【知识储备】 164 一、**系统的典型架构 164 二、协同过滤的**算法 164 三、相似度矩阵 165 四、Spark MLlib库 166 【任务计划与决策】 166 【任务实施】 167 【任务检查与评价】 172 【任务小结】 173 【任务拓展】 173 任务二 基于ALS的**系统 173 【职业能力目标】 173 【任务描述与要求】 173 【知识储备】 173 【任务计划与决策】 175 【任务实施】 175 【任务检查与评价】 178 【任务小结】 179 【任务拓展】 179 项目六 基于CDC(获取数据变更)的实时数据采集 181 任务一 基于Canal完成MySQL实时数据的 采集 182 【职业能力目标】 182 【任务描述与要求】 182 【知识储备】 182 一、MySQL主从复制实现 182 二、Canal在系统中的位置 183 三、Canal的体系结构 183 【任务实施】 184 一、配置MySQL数据库 184 二、配置Canal采集MySQL 数据 185 【任务检查与评价】 188 【任务小结】 189 【任务拓展】 189 任务二 基于Flink CDC完成MySQL实时 数据的采集 192 【职业能力目标】 192 【任务描述与要求】 192 【知识储备】 192 【任务实施】 193 【任务检查与评价】 197 【任务小结】 198 【任务拓展】 198 参考文献 199

    与描述相符

    100

    北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 台湾 香港 澳门 海外