目录
前言Ⅰ
第1章大数据概论
1.1大数据技术简介
1.1.1IT产业的发展简史
1.1.2大数据的主要来源
1.1.3数据生成的3种主要方式
<p> </p> <p>目录</p> <p>前言Ⅰ</p> <p> </p> <p>第1章大数据概论</p> <p> </p> <p>1.1大数据技术简介</p> <p> </p> <p>1.1.1IT产业的发展简史</p> <p> </p> <p>1.1.2大数据的主要来源</p> <p> </p> <p>1.1.3数据生成的3种主要方式</p> <p> </p> <p>1.1.4大数据的特点</p> <p> </p> <p>1.1.5大数据的处理流程</p> <p> </p> <p>1.1.6大数据的数据格式</p> <p> </p> <p>1.1.7大数据的基本特征</p> <p> </p> <p>1.1.8大数据的应用领域</p> <p> </p> <p>1.2大数据的技术架构</p> <p> </p> <p>1.3大数据的整体技术</p> <p> </p> <p>1.4大数据分析的4种典型工具简介</p> <p> </p> <p>1.5大数据未来发展趋势</p> <p> </p> <p>1.5.1数据资源化</p> <p> </p> <p>1.5.2数据科学和数据联盟的成立</p> <p> </p> <p>1.5.3大数据隐私和**问题</p> <p> </p> <p>1.5.4开源软件成为推动大数据发展的动力</p> <p> </p> <p>1.5.5大数据在多方位改善人们的生活</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题1</p> <p> </p> <p>第2章大数据采集及预处理</p> <p> </p> <p>2.1数据采集简介</p> <p> </p> <p>2.1.1数据采集</p> <p> </p> <p>2.1.2数据采集的数据来源</p> <p> </p> <p>2.1.3数据采集的技术方法</p> <p> </p> <p>2.2大数据的预处理</p> <p> </p> <p>2.3大数据采集及预处理的主要工具</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题2</p> <p> </p> <p>第3章大数据分析概论</p> <p> </p> <p>3.1大数据分析简介</p> <p> </p> <p>3.1.1大数据分析</p> <p> </p> <p>3.1.2大数据分析的基本方法</p> <p> </p> <p>3.1.3大数据处理流程</p> <p> </p> <p>3.2大数据分析的主要技术</p> <p> </p> <p>3.2.1深度学习</p> <p> </p> <p>3.2.2知识计算</p> <p> </p> <p>3.3大数据分析处理系统简介</p> <p> </p> <p>3.3.1批量数据及处理系统</p> <p> </p> <p>3.3.2流式数据及处理系统</p> <p> </p> <p>3.3.3交互式数据及处理系统</p> <p> </p> <p>3.3.4图数据及处理系统</p> <p> </p> <p>3.4大数据分析的应用</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题3</p> <p> </p> <p>第4章大数据可视化</p> <p> </p> <p>4.1大数据可视化简介</p> <p> </p> <p>4.2大数据可视化工具Tableau</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题4</p> <p> </p> <p>第5章Hadoop概论</p> <p> </p> <p>5.1Hadoop简介</p> <p> </p> <p>5.1.1Hadoop简史</p> <p> </p> <p>5.1.2Hadoop应用和发展趋势</p> <p> </p> <p>5.2Hadoop的架构与组成</p> <p> </p> <p>5.2.1Hadoop架构介绍</p> <p> </p> <p>5.2.2Hadoop组成模块</p> <p> </p> <p>5.3Hadoop应用分析</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题5</p> <p> </p> <p>第6章HDFS和Common概论</p> <p> </p> <p>6.1HDFS简介</p> <p> </p> <p>6.1.1HDFS的相关概念</p> <p> </p> <p>6.1.2HDFS特性</p> <p> </p> <p>6.1.3HDFS体系结构</p> <p> </p> <p>6.1.4HDFS的工作原理</p> <p> </p> <p>6.1.5HDFS的相关技术</p> <p> </p> <p>6.2Common简介</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题6</p> <p> </p> <p>第7章MapReduce概论</p> <p> </p> <p>7.1MapReduce简介</p> <p> </p> <p>7.1.1MapReduce</p> <p> </p> <p>7.1.2MapReduce功能、特征和局限性</p> <p> </p> <p>7.2Map和Reduce任务</p> <p> </p> <p>7.3MapReduce架构和工作流程</p> <p> </p> <p>7.3.1MapReduce的架构</p> <p> </p> <p>7.3.2MapReduce的工作流程</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题7</p> <p> </p> <p>第8章NoSQL概论</p> <p> </p> <p>8.1NoSQL简介</p> <p> </p> <p>8.1.1NoSQL的含义</p> <p> </p> <p>8.1.2NoSQL的产生</p> <p> </p> <p>8.1.3NoSQL的特点</p> <p> </p> <p>8.2NoSQL技术基础</p> <p> </p> <p>8.2.1大数据的一致性策略</p> <p> </p> <p>8.2.2大数据的分区与放置策略</p> <p> </p> <p>8.2.3大数据的复制与容错技术</p> <p> </p> <p>8.2.4大数据的缓存技术</p> <p> </p> <p>8.3NoSQL的类型</p> <p> </p> <p>8.3.1键值存储</p> <p> </p> <p>8.3.2列存储</p> <p> </p> <p>8.3.3面向文档存储</p> <p> </p> <p>8.3.4图形存储</p> <p> </p> <p>8.4典型的NoSQL工具</p> <p> </p> <p>8.4.1Redis</p> <p> </p> <p>8.4.2Bigtable</p> <p> </p> <p>8.4.3CouchDB</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题8</p> <p> </p> <p>第9章Spark概论</p> <p> </p> <p>9.1Spark平台</p> <p> </p> <p>9.1.1Spark简介</p> <p> </p> <p>9.1.2Spark发展</p> <p> </p> <p>9.1.3Scala语言</p> <p> </p> <p>9.2Spark与Hadoop</p> <p> </p> <p>9.2.1Hadoop的局限与不足</p> <p> </p> <p>9.2.2Spark的优点</p> <p> </p> <p>9.2.3Spark速度比Hadoop快的原因分解</p> <p> </p> <p>9.3Spark处理框架及其生态系统</p> <p> </p> <p>9.3.1底层的Cluster Manager和Data Manager</p> <p> </p> <p>9.3.2中间层的Spark Runtime</p> <p> </p> <p>9.3.3高层的应用模块</p> <p> </p> <p>9.4Spark的应用</p> <p> </p> <p>9.4.1Spark的应用场景</p> <p> </p> <p>9.4.2应用Spark的成功案例</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题9</p> <p> </p> <p>第10章云计算与大数据</p> <p> </p> <p>10.1云计算简介</p> <p> </p> <p>10.1.1云计算</p> <p> </p> <p>10.1.2云计算与大数据的关系</p> <p> </p> <p>10.1.3云计算基本特征</p> <p> </p> <p>10.1.4云计算服务模式</p> <p> </p> <p>10.2云计算核心技术</p> <p> </p> <p>10.2.1虚拟化技术</p> <p> </p> <p>10.2.2虚拟化软件及应用</p> <p> </p> <p>10.2.3资源池化技术</p> <p> </p> <p>10.2.4云计算部署模式</p> <p> </p> <p>10.3云计算应用案例</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题10</p> <p> </p> <p>第11章典型大数据解决方案</p> <p> </p> <p>11.1Intel大数据</p> <p> </p> <p>11.1.1Intel大数据解决方案</p> <p> </p> <p>11.1.2Intel大数据相关案例</p> <p> </p> <p>11.2百度大数据</p> <p> </p> <p>11.2.1百度大数据引擎</p> <p> </p> <p>11.2.2百度大数据 平台</p> <p> </p> <p>11.2.3相关应用</p> <p> </p> <p>11.2.4百度预测的使用方法</p> <p> </p> <p>11.3腾讯大数据</p> <p> </p> <p>11.3.1腾讯大数据解决方案</p> <p> </p> <p>11.3.2相关实例</p> <p> </p> <p>本章小结</p> <p> </p> <p>习题11</p> <p> </p> <p>附录A习题答案</p> <p> </p> <p>参考文献</p> <p> </p>显示全部信息前 言前言IT产业在其发展历程中,经历过几轮技术浪潮。如今,大数据浪潮正在迅速地朝人们涌来,并将触及到各个行业和生活的许多方面。大数据浪潮将比之前发生过的浪潮更大、触及面更广,给人们的工作和生活带来的变化和影响更深刻。大数据的应用激发了一场思想风暴,也悄然地改变了人们的生活方式和思维习惯。大数据正以****的速度颠覆人们探索世界的方法,引起工业、商业、医学、军事等领域的深刻变革。因此,在当前大数据浪潮的猛烈冲击下,各个专业的高校大学生迫切需要充实和完善自己原有的IT知识结构,掌握两个“本领”: 一是掌握大数据基本技术与应用,使大数据能够为我所用; 二是挖掘数据之间隐藏的规律与关系,使大数据更好地服务于社会发展。为此,本书围绕大数据及其相关技术这一主题,采用深入浅出的叙述方式,简明扼要地阐述大数据及其相关*新技术的基本理论、关键技术和实际应用,目的是让广大师生以计算机公共基础课程为知识载体,对大数据在各个领域的应用方法和相关知识有所了解。将大数据相关课程纳入大学基础教育中,必将**学生更好地把握时代科学发展的脉搏和历史赋予的机遇。在编写原则上,本书既维持了大数据技术本身应有的系统性和理论性,又着重体现其在各个领域内的应用性与针对性。本书的一大亮点是每章都使用图表对大数据与传统数据处理方式进行对比。另外,本书注重启发式的学习策略,便于读者理解和掌握。全书每章均包括实际应用案例与关键词注释,方便读者查阅和自学,同时配备习题和参考答案。全书在内容上共分成11章: 第1章大数据概论由娄岩编写,第2章大数据采集及预处理由郑琳琳编写,第3章大数据分析概论由刘尚辉编写,第4章大数据可视化由李静编写,第5章Hadoop概论由马瑾编写,第6章HDFS和Common概论由丁林编写,第7章MapReduce概论由徐东雨编写,第8章NoSQL概论由曹阳编写,第9章Spark概论由庞东兴编写,第10章云计算与大数据由张志常编写,第11章典型大数据解决方案由霍妍编写。清华大学出版社对本书的出版做了精心策划,充分论证,在此向所有参加编写的同事们及帮助和指导过我们工作的朋友们表示衷心的感谢!由于编者水平有限,加之时间仓促,书中难免存在疏漏之处,恳请广大读者批评斧正。前言 <div>IT产业在其发展历程中,经历过几轮技术浪潮。如今,大数据浪潮正在迅速地朝人们涌来,并将触及到各个行业和生活的许多方面。大数据浪潮将比之前发生过的浪潮更大、触及面更广,给人们的工作和生活带来的变化和影响更深刻。大数据的应用激发了一场思想风暴,也悄然地改变了人们的生活方式和思维习惯。大数据正以****的速度颠覆人们探索世界的方法,引起工业、商业、医学、军事等领域的深刻变革。因此,在当前大数据浪潮的猛烈冲击下,各个专业的高校大学生迫切需要充实和完善自己原有的IT知识结构,掌握两个“本领”: 一是掌握大数据基本技术与应用,使大数据能够为我所用; 二是挖掘数据之间隐藏的规律与关系,使大数据更好地服务于社会发展。为此,本书围绕大数据及其相关技术这一主题,采用深入浅出的叙述方式,简明扼要地阐述大数据及其相关*新技术的基本理论、关键技术和实际应用,目的是让广大师生以计算机公共基础课程为知识载体,对大数据在各个领域的应用方法和相关知识有所了解。将大数据相关课程纳入大学基础教育中,必将**学生更好地把握时代科学发展的脉搏和历史赋予的机遇。在编写原则上,本书既维持了大数据技术本身应有的系统性和理论性,又着重体现其在各个领域内的应用性与针对性。本书的一大亮点是每章都使用图表对大数据与传统数据处理方式进行对比。另外,本书注重启发式的学习策略,便于读者理解和掌握。全书每章均包括实际应用案例与关键词注释,方便读者查阅和自学,同时配备习题和参考答案。全书在内容上共分成11章: 第1章大数据概论由娄岩编写,第2章大数据采集及预处理由郑琳琳编写,第3章大数据分析概论由刘尚辉编写,第4章大数据可视化由李静编写,第5章Hadoop概论由马瑾编写,第6章HDFS和Common概论由丁林编写,第7章MapReduce概论由徐东雨编写,第8章NoSQL概论由曹阳编写,第9章Spark概论由庞东兴编写,第10章云计算与大数据由张志常编写,第11章典型大数据解决方案由霍妍编写。清华大学出版社对本书的出版做了精心策划,充分论证,在此向所有参加编写的同事们及帮助和指导过我们工作的朋友们表示衷心的感谢!由于编者水平有限,加之时间仓促,书中难免存在疏漏之处,恳请广大读者批评斧正。<br />娄岩2016年9月<br /><br /><br /><br /></div>显示全部信息媒体评论评论免费在线读第5章Hadoop概论导学
内容与要求
本章主要介绍Hadoop的应用现状及其架构。Hadoop允许用户在集群服务器上使用简单的编程模型对大数据集进行分布式处理。“Hadoop简介”一节中介绍Hadoop的起源及功能与优势,要求了解Hadoop优势及应用现状。“Hadoop架构及组成”一节中介绍Hadoop的结构,要求了解其主要核心模块HDFS和MapReduce,并了解其他模块的功能。“Hadoop应用分析”一节中通过对数据排序来了解Hadoop的工作机制。
**、难点
本章**是了解Hadoop的功能与特点,难点是了解各Hadoop核心模块的功能。用户使用Hadoop开发分布式程序,可以在不了解分布式底层细节的情况下,充分利用集群的作用高速运算和存储。绝大多数从事大数据处理的行业和公司都借助Hadoop平台进行产品开发,并对Hadoop本身的功能进行拓展和演化,极大地丰富了Hadoop的性能。5.1Hadoop简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是以分布式文件系统(Hadoop Distributed File System,HDFS)和MapReduce等模块为核心,为用户提供细节透明的系统底层分布式基础架构。用户可以利用Hadoop轻松地组织计算机资源,搭建自己的分布式计算平台,并且可以充分地利用集群的计算和存储能力,完成海量数据的处理。5.1.1Hadoop简史1. Hadoop起源
Hadoop这个名称是由它的创始人Doug Cutting命名的,来源于Doug Cutting儿子的棕黄色大象玩具,它的发音是[hdu:p]。Hadoop的图标如图51所示。
图51Hadoop图标