您好,欢迎光临有路网!
Hadoop权威指南(第2版修订升级版)
QQ咨询:
有路璐璐:

Hadoop权威指南(第2版修订升级版)

  • 作者:(美)怀特|
  • 出版社:清华大学出版社
  • ISBN:9787302257585
  • 出版日期:2011年07月01日
  • 页数:600
  • 定价:¥89.00
  • 分享领佣金
    手机购买
    城市
    店铺名称
    店主联系方式
    店铺售价
    库存
    店铺得分/总交易量
    发布时间
    操作

    新书比价

    网站名称
    书名
    售价
    优惠
    操作

    图书详情

    内容提要
    本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop的I/O、MapReduce应用程序开发;MapReduce的工作机制;MapReduce的类型和格式;MapReduce的特性;如何构建Hadoop集群,如何管理Hadoop;Pig简介;Hbase简介;Hive简介;ZooKeeper简介;开源工具Sqoop,*后还提供了丰富的案例分析。
    本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。
    目录
    第1章 初识Hadoop
    数据!数据!
    数据存储与分析
    与其他系统相比
    关系型数据库管理系统
    网格计算
    志愿计算
    1.3.4 Hadoop 发展简史
    Apache Hadoop和Hadoop生态圈
    第2章 关于MapReduce
    一个气象数据集
    数据的格式
    使用Unix工具进行数据分析
    使用Hadoop分析数据
    map阶段和reduce阶段
    横向扩展
    合并函数
    运行一个分布式的MapReduce作业
    Hadoop的Streaming
    Ruby版本
    Python版本
    Hadoop Pipes
    编译运行
    第3章 Hadoop分布式文件系统
    HDFS的设计
    HDFS的概念
    数据块
    namenode和datanode
    命令行接口
    基本文件系统操作
    Hadoop文件系统
    接口
    Java接口
    从Hadoop URL中读取数据
    通过FileSystem API读取数据
    写入数据
    目录
    查询文件系统
    删除数据
    数据流
    文件读取剖析
    文件写入剖析
    一致模型
    通过 distcp并行拷贝
    保持 HDFS 集群的均衡
    Hadoop的归档文件
    使用Hadoop归档文件
    不足
    第4章 Hadoop I/O
    数据完整性
    HDFS的数据完整性
    LocalFileSystem
    ChecksumFileSystem
    压缩
    codec
    压缩和输入切分
    在MapReduce中使用压缩
    序列化
    Writable接口
    Writable类
    实现定制的Writable类型
    序列化框架
    Avro
    依据文件的数据结构
    写入SequenceFile
    MapFile
    第5章 MapReduce应用开发
    配置API
    合并多个源文件
    可变的扩展
    配置开发环境
    配置管理
    辅助类GenericOptionsParser,Tool和ToolRunner
    编写单元测试
    mapper
    reducer
    本地运行测试数据
    在本地作业运行器上运行作业
    测试驱动程序
    在集群上运行
    打包
    启动作业
    MapReduce的Web界面
    获取结果
    作业调试
    使用远程调试器
    作业调优
    分析任务
    MapReduce的工作流
    将问题分解成MapReduce作业
    运行独立的作业
    第6章 MapReduce的工作机制
    剖析MapReduce作业运行机制
    作业的提交
    作业的初始化
    任务的分配
    任务的执行
    进度和状态的更新
    作业的完成
    失败
    任务失败
    tasktracker失败
    jobtracker失败
    作业的调度
    Fair Scheduler
    Capacity Scheduler
    shuffle和排序
    map端
    reduce端
    配置的调优
    任务的执行
    推测式执行
    重用JVM
    跳过坏记录
    任务执行环境
    第7章 MapReduce的类型与格式
    MapReduce的类型
    默认的MapReduce作业
    输入格式
    输入分片与记录
    文本输入
    二进制输入
    多种输入
    数据库输入(和输出)
    输出格式
    文本输出
    二进制输出
    多个输出
    延迟输出
    数据库输出
    第8章 MapReduce的特性
    计数器
    内置计数器
    用户定义的Java计数器
    用户定义的Streaming计数器
    排序
    准备
    部分排序
    总排序
    二次排序
    联接
    map端联接
    reduce端联接
    边数据分布
    利用JobConf来配置作业
    分布式缓存
    MapReduce库类
    第9章 构建Hadoop集群
    集群规范
    网络拓扑
    集群的构建和安装
    安装Java
    创建Hadoop用户
    安装Hadoop
    测试安装
    SSH配置
    Hadoop配置
    配置管理
    环境设置
    Hadoop守护进程的关键属性
    Hadoop守护进程的地址和端口
    Hadoop的其他属性
    创建用户帐号
    **性
    Kerberos和Hadoop
    委托令牌
    其他**性改进
    利用基准测试程序测试Hadoop集群
    Hadoop基准测试程序
    用户的作业
    云上的Hadoop
    Amazon EC2上的Hadoop
    第10章 管理Hadoop
    HDFS
    **性数据结构
    **模式
    日志审计
    工具
    监控
    日志
    度量
    Java管理扩展(JMX)
    维护
    日常管理过程
    委任节点和解除节点
    升级
    第11章 Pig简介
    安装与运行Pig
    执行类型
    运行Pig程序
    Grunt
    Pig Latin编辑器
    示例
    生成示例
    与数据库比较
    PigLatin
    结构
    语句
    表达式
    1.4.4 类型
    模式
    函数
    用户自定义函数
    过滤UDF
    计算UDF
    加载UDF
    数据处理操作
    加载和存储数据
    过滤数据
    分组与连接数据
    对数据进行排序
    组合和分割数据
    Pig实战
    并行处理
    参数代换
    第12章 Hive
    1.1 安装Hive
    1.1.1 Hive外壳环境
    1.2 示例
    1.3 运行Hive
    1.3.1 配置Hive
    1.3.2 Hive服务
    1.3.3 Metastore
    1.4 和传统数据库进行比较
    1.4.1 读时模式(Schema on Read)vs.写时模式(Schema onWrite)
    1.4.2 更新、事务和索引
    1.5 HiveQL
    1.5.1 数据类型
    1.5.2 操作和函数
    1.6 表
    1.6.1 托管表(Managed Tables)和外部表(External Tables)
    1.6.2 分区(Partitions)和桶(Buckets)
    1.6.3 存储格式
    1.6.4 导入数据
    1.6.5 表的修改
    1.6.6 表的丢弃
    1.7 查询数据
    1.7.1 排序(Sorting)和聚集(Aggregating)
    1.7.2 MapReduce脚本
    1.7.3 连接
    1.7.4 子查询
    1.7.5 视图(view)
    1.8 用户定义函数(User-Defined Functions)
    1.8.1 编写UDF
    1.8.2 编写UDAF
    第13章 HBase
    2.1 HBasics
    2.1.1 背景
    2.2 概念
    2.2.1 数据模型的“旋风之旅”
    2.2.2 实现
    2.3 安装
    2.3.1 测试驱动
    2.4 客户机
    2.4.1 Java
    2.4.2 Avro,REST,以及Thrift
    2.5 示例
    2.5.1 模式
    2.5.2 加载数据
    2.5.3 Web查询
    2.6 HBase和RDBMS的比较
    2.6.1 成功的服务
    2.6.2 HBase
    2.6.3 实例:HBase在Streamy.com的使用
    2.7 Praxis
    2.7.1 版本
    2.7.2 HDFS
    2.7.3 用户接口(UI)
    2.7.4 度量(metrics)
    2.7.5 模式设计
    2.7.6 计数器
    2.7.7 批量加载(bulkloading)
    第14章 ZooKeeper
    安装和运行ZooKeeper
    示例
    ZooKeeper中的组成员关系
    创建组
    加入组
    列出组成员
    ZooKeeper服务
    数据模型
    操作
    实现
    一致性
    会话
    状态
    使用ZooKeeper来构建应用
    配置服务
    具有可恢复性的ZooKeeper应用
    锁服务
    生产环境中的ZooKeeper
    可恢复性和性能
    配置
    第15章 开源工具Sqoop
    获取Sqoop
    一个导入的例子
    生成代码
    其他序列化系统
    深入了解数据库导入
    导入控制
    导入和一致性
    直接模式导入
    使用导入的数据
    导入的数据与Hive
    导入大对象
    执行导出
    深入了解导出
    导出与事务
    导出和SequenceFile
    第16章 实例分析
    Hadoop 在Last.fm的应用
    Last.fm:社会音乐史上的革命
    Hadoop a Last.fm
    用Hadoop产生图表
    Track Statistics程序
    总结
    Hadoop和Hive在Facebook的应用
    概要介绍
    Hadoop a Facebook
    假想的使用情况案例
    Hive
    问题与未来工作计划
    Nutch 搜索引擎
    背景介绍
    数据结构
    Nutch系统利用Hadoop进行数据处理的精选实例
    总结
    Rackspace的日志处理
    简史
    选择Hadoop
    收集和存储
    日志的MapReduce模型
    关于Cascading
    字段、元组和管道
    操作
    Tap类,Scheme对象和Flow对象
    Cascading实战
    灵活性
    Hadoop和Cascading在ShareThis的应用
    总结
    在Apache Hadoop上的TB字节数量级排序
    使用Pig和Wukong来探索10亿数量级边的 网络图
    测量社区
    每个人都在和我说话:Twitter回复关系图
    degree(度)
    对称链接
    社区提取
    附录A 安装Apache Hadoop
    先决条件
    安装
    配置
    本机模式
    伪分布模式
    全分布模式
    附录B Cloudera’s Distribution for Hadoop
    附录C 准备NCDC天气数据

    与描述相符

    100

    北京 天津 河北 山西 内蒙古 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 台湾 香港 澳门 海外