本书提供了学习大数据技术及架构的一站式解决方案,覆盖了大数据生态圈中的完整技术体系,包含以下内容。 . 一、数据采集 日志数据采集工具(Flume 、Logstash、Filebeat ) 数据库数据采集工具(离线采集工具——Sqoop、DataX,实时数据采集工具——Canal、Maxwell 网页数据采集工具 物联网数据采集工具 消息队列中间件 . 二、数据存储 分布式文件存储之HDFS NoSQL数据库之HBase NoSQL数据库之Redis . 三、离线数据计算 离线计算引擎MapReduce 离线计算引擎Spark . 四、实时数据计算 实时计算引擎Storm 实时计算引擎Spark Streaming 新一代实时计算引擎Flink . 五、OLAP数据分析 离线OLAP引擎(Hive、Impala、Kylin) 实时OLAP引擎(Druid、ClickHouse、Doris) . 六、全文检索引擎 Lucene Solr Elasticsearch . 七、分布式任务调度系统 Azkaban Ooize DolphinScheduler . 八、分布式资源管理 YARN的