《Hadoop理论与实践》北京百里半网络技术有限公司、李平

第1章大数据概述 1 1.1 大数据与数据分析 2 1.1.1 Hadoop的基础组件 2 1.1.2 Hadoop分布式文件系统 3 1.1.3 MapReduce 3 1.1.4 YARN 4 1.2 ZooKeeper 5 1.3 Hive 6 1.4 与其他系统集成 7 1.4.1 Hadoop生态系统 7 1.4.2 数据集成与Hadoop 8 1.4.3 Hadoop商用平台CDH 9 第2章 Hadoop存储 13 2.1 HDFS的基础知识 14 2.1.1 HDFS概念 14 2.1.2 架构 18 2.1.3 接口 21 2.2 在分布式模式下设置HDFS集群 26 2.3 HDFS的**特性 30 2.3.1 快照 30 2.3.2 离线查看器 33 2.3.3 分层存储 39 2.4 文件格式 42 2.5 云存储 43 第3章数据仓库和Hive 45 3.1 数据仓库和Hive简介 45 3.1.1 数据仓库简介 45 3.1.2 数据仓库与数据库的区别 46 3.1.3 Hive简介 46 3.1.4 查看CDH中Hive版本 47 3.2 Hive与数据库 48 3.2.1 Hive与RDBMS 48 3.2.2 HiveQL与SQL 50 3.3 Hive的**特性 51 3.3.1 Hive的优缺点和适用场景 52 3.3.2 Hive进程介绍 52 3.3.3 Hive访问方式 53 3.3.4 Hive体系结构 53 3.3.5 Hive Metastore 55 3.3.6 Hive数据类型 56 3.3.7 Hive的常用参数配置 57 3.3.8 Hive的数据模型 58 3.3.9 Hive函数 62 3.4 案例演示 66 3.4.1 准备数据 67 3.4.2 修改和查询 71 3.4.3 表连接 72 3.4.4 创建视图 74 3.4.5 创建索引 75 3.4.6 JDBC开发 76 3.4.7 UDF的开发 84 3.4.8 UDAF 86 3.5 Hive优化和Hive中的锁 87 3.5.1 注意事项 87 3.5.2 Hive锁 88 3.6 问题汇总 89 第4章 Hadoop计算 91 4.1 Hadoop MapReduce的基础 91 4.1.1 概念 92 4.1.2 架构 94 4.2 启动MapReduce作业 99 4.2.1 编写map任务 100 4.2.2 编写reduce任务 102 4.2.3 编写MapReduce作业 103 4.2.4 MapReduce配置 105 4.3 MapReduce的**特性 106 4.3.1 分布式缓存 106 4.3.2 计数器 108 4.3.3 作业历史服务器 109 第5章 Hadoop** 113 5.1 提升Hadoop集群**性 114 5.1.1 边界** 114 5.1.2 Kerberos认证 115 5.1.3 Hadoop中的服务级授权 120 5.2 提升数据**性 124 5.2.1 数据分类 125 5.2.2 将数据传到集群 125 5.2.3 保护集群中的数据 130 5.3 增强应用程序**性 134 5.3.1 YARN 架构 134 5.3.2 YARN中的应用提交 135 第6章 Flume分布式日志处理系统 139 6.1 Flume介绍 139 6.1.1 Flume简介 140 6.1.2 Flume原理 141 6.1.3 Flume特点 143 6.1.4 Flume结构 143 6.1.5 Flume使用 156 6.2 Flume使用案例 159 6.2.1 Flume监听端口示例 159 6.2.2 两个主机组成的Flume集群示例 162 6.2.3 HDFS Sink使用示例 164 6.2.4 扇出示例 167 6.2.5 负载均衡(Sink组)示例 169 6.3 Flume开发案例 178 6.3.1 开发自定义的Sink 178 6.3.2 Flume结合Kafka的使用 183 第7章 Spark及其生态圈概述 203 7.1 Spark 简介 203 7.1.1 什么是Spark 203 7.1.2 Spark与MapReduce比较 206 7.1.3 Spark的演进路线图 206 7.2 Spark生态系统 207 7.2.1 Spark Core 208 7.2.2 Spark Streaming 209 7.2.3 Spark SQL 211 7.2.4 BlinkDB 213 7.2.5 MLBase/MLIib 213 7.2.6 GraphX 214 7.2.7 SparkR 215 7.2.8 Alluxio 216 7.3 小结 217

经济管理

文学艺术

人文社科

科学技术

生活休闲

教育考试

Hadoop理论与实践

猜你也喜欢

新书比价

图书详情

内容提要

目录

消费者保障

新手上路

付款方式

个人账户