第1章 感知大数据 1 任务1 认知大数据 1 子任务1 定义大数据 2 子任务2 洞悉大数据的特征 2 任务2 探究大数据常用的技术 3 任务3 窥视大数据的商业应用 4 课后练习 5 第2章 环视Hadoop 6 任务1 溯源Hadoop 6 子任务1 较量Hadoop与传统文件系统 8 子任务2 发现Hadoop的核心和特点 9 子任务3 初访MapReduce 10 任务2 查究Hadoop分布式文件系统 12 子任务1 探究HDFS工作机制 12 子任务2 厘清HDFS的前提和设计目标 15 子任务3 深挖HDFS的核心机制 19 任务3 构建MapReduce编程模型 22 子任务1 解构MapReduce编程模型 22 子任务2 揭秘YARN与MapReduce 24 任务4 漫游Hadoop系统及其生态圈 25 课后练习 32 第3章 部署Hadoop大数据平台 34 任务1 掌控Hadoop平台的部署模式 34 任务2 部署Hadoop集群 36 任务3 编写**MapReduce程序 59 任务4 初次运行MapReduce程序 60 课后练习 64 本章附录 65 第4章 设计爬虫获取数据源 69 任务1 初探大数据 69 任务2 剖析大数据 74 任务3 爬取大数据 76 任务4 活用Scrapy框架**编制爬虫 79 任务5 运用Scrapy 81 课后练习 89 第5章 清洗数据与存储结构化 91 任务1 揭示数据清洗 91 任务2 清洗数据 92 子任务1 熟知数据的基本操作 92 子任务2 处理数据缺失 94 子任务3 规范化数据 96 子任务4 处理数据表结构的错误 97 子任务5 处理日期数据的问��� 102 任务3 使用分布式数据库系统和结构存储数据 104 子任务1 安装并使用Hive数据仓库 104 子任务2 安装并使用HBase分布式数据库 110 课后练习 114 第6章 分析大数据 115 任务1 透视数据分析 115 任务2 构建分析模型 116 子任务1 厘清数据分析过程 116 子任务2 数据机器学习模型 117 任务3 运用大数据分析算法分析数据 119 子任务1 运用K-Means聚类算法分析数据 120 子任务2 运用线性回归算法分析数据 123 子任务3 运用决策树算法分析数据 127 课后练习 130 第7章 可视化大数据 131 任务1 洞察pyecharts库 131 任务2 活用可视化 132 子任务1 活用柱状图/条形图(Bar) 132 子任务2 活用散点图(EffectScatter) 139 子任务3 活用漏斗图(Funnel) 142 子任务4 活用仪表盘(Gauge) 143 子任务5 活用地理坐标图(Geo) 144 子任务6 活用关系图(Graph) 145 子任务7 活用热力图(HeatMap) 148 子任务8 活用K线图(Kline/Candlestick) 150 子任务9 活用折线图/面积图(Line) 152 子任务10 活用水球图(Liquid) 153 子任务11 活用地图(Map) 154 子任务12 活用饼图(Pie) 155 子任务13 活用平行坐标系(Parallel) 156 子任务14 活用雷达图(Radar) 159 子任务15 活用词云(WordCloud)图 160 课后练习 161 第8章 平台化快速部署Hadoop 163 任务1 探寻大数据管理平台 163 任务2 配置基础环境 165 子任务1 配置Linux系统 165 子任务2 禁用Transparent Huge Pages 169 子任务3 安装并配置JDK 170 任务3 安装并配置Ambari 170 任务4 快速部署Hadoop大数据集群 173 课后练习 178 附录A 课后练习参考答案 179