作品简介

随着大数据技术的普及,它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学习大数据技术,这使得它已经成为程序员所需的基本技能。为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,包括《Hadoop权威指南》《Hadoop实战》等。尽管如此,面向初、中级学者,能够系统化、体系化介绍大数据技术的基础书籍并不多见。笔者曾接触过大量大数据初学者,他们一直渴望能有一本简单且易于理解的教科书式的大数据书籍出现。为了满足这些读者的需求,笔者根据自己多年的数据项目和培训经验,继《Hadoop技术内幕》书籍之后,于两年前开始尝试编写一本浅显易读的大数据基础书籍。

董西成,资深hadoop技术专家。

本书站在大数据落地应用的角度,系统阐述大数据从数据收集,到数据存储、分布式协调及资源管理、计算引擎、分析工具,再到数据可视化这一完整流程,本书既包含主要技术的实现原理及其框架,也包含了具体落地指导,是帮助企业和个人整体了解大数据框架不可多得的参考书。

作品目录

  • 前言
  • 第一部分 概述篇
  • 第1章 企业级大数据技术体系概述
  • 1.1 大数据系统产生背景及应用场景
  • 1.2 企业级大数据技术框架
  • 1.3 企业级大数据技术实现方案
  • 1.4 大数据架构:Lambda Architecture
  • 1.5 Hadoop与Spark版本选择及安装部署
  • 1.6 小结
  • 1.7 本章问题
  • 第二部分 数据收集篇
  • 第2章 关系型数据的收集
  • 2.1 Sqoop概述
  • 2.2 Sqoop基本架构
  • 2.3 Sqoop使用方式
  • 2.4 数据增量收集CDC
  • 2.5 小结
  • 2.6 本章问题
  • 第3章 非关系型数据的收集
  • 3.1 概述
  • 3.2 Flume NG基本架构
  • 3.3 Flume NG数据流拓扑构建方法
  • 3.4 小结
  • 3.5 本章问题
  • 第4章 分布式消息队列Kafka
  • 4.1 概述
  • 4.2 Kafka设计架构
  • 4.3 Kafka程序设计
  • 4.4 Kafka典型应用场景
  • 4.5 小结
  • 4.6 本章问题
  • 第三部分 数据存储篇
  • 第5章 数据序列化与文件存储格式
  • 5.1 数据序列化的意义
  • 5.2 数据序列化方案
  • 5.3 文件存储格式剖析
  • 5.4 小结
  • 5.5 本章问题
  • 第6章 分布式文件系统
  • 6.1 背景
  • 6.2 文件级别和块级别的分布式文件系统
  • 6.3 HDFS基本架构
  • 6.4 HDFS关键技术
  • 6.5 HDFS访问方式
  • 6.6 小结
  • 6.7 本章问题
  • 第7章 分布式结构化存储系统
  • 7.1 背景
  • 7.2 HBase数据模型
  • 7.3 HBase基本架构
  • 7.4 HBase访问方式
  • 7.5 HBase应用案例
  • 7.6 分布式列式存储系统Kudu
  • 7.7 小结
  • 7.8 本章问题
  • 第四部分 分布式协调与资源管理篇
  • 第8章 分布式协调服务ZooKeeper
  • 8.1 分布式协调服务的存在意义
  • 8.2 ZooKeeper数据模型
  • 8.3 ZooKeeper基本架构
  • 8.4 ZooKeeper程序设计
  • 8.5 ZooKeeper应用案例
  • 8.6 小结
  • 8.7 本章问题
  • 第9章 资源管理与调度系统YARN
  • 9.1 YARN产生背景
  • 9.2 YARN设计思想
  • 9.3 YARN的基本架构与原理
  • 9.4 YARN资源调度器
  • 9.5 YARN资源隔离
  • 9.6 以YARN为核心的生态系统
  • 9.7 资源管理系统Mesos
  • 9.8 资源管理系统架构演化
  • 9.9 小结
  • 9.10 本章问题
  • 第五部分 大数据计算引擎篇
  • 第10章 批处理引擎MapReduce
  • 10.1 概述
  • 10.2 MapReduce编程模型
  • 10.3 MapReduce程序设计
  • 10.4 MapReduce内部原理
  • 10.5 MapReduce应用实例
  • 10.6 小结
  • 10.7 本章问题
  • 第11章 DAG计算引擎Spark
  • 11.1 概述
  • 11.2 Spark编程模型
  • 11.3 Spark运行模式
  • 11.4 Spark程序设计实例
  • 11.5 Spark内部原理
  • 11.6 DataFrame、Dataset与SQL
  • 11.7 Spark生态系统
  • 11.8 小结
  • 11.9 本章问题
  • 第12章 交互式计算引擎
  • 12.1 概述
  • 12.2 ROLAP
  • 12.3 MOLAP
  • 12.4 小结
  • 12.5 本章问题
  • 第13章 流式实时计算引擎
  • 13.1 概述
  • 13.2 Storm基础与实战
  • 13.3 Spark Streaming基础与实战
  • 13.4 流式计算引擎对比
  • 13.5 小结
  • 13.6 本章问题
  • 第六部分 数据分析篇
  • 第14章 数据分析语言HQL与SQL
  • 14.1 概述
  • 14.2 Hive架构
  • 14.3 Spark SQL架构
  • 14.4 HQL
  • 14.5 小结
  • 14.6 本章问题
  • 第15章 大数据统一编程模型
  • 15.1 产生背景
  • 15.2 Apache Beam基本构成
  • 15.3 Apache Beam编程模型
  • 15.4 Apache Beam流式计算模型
  • 15.5 Apache Beam编程实例
  • 15.6 小结
  • 15.7 本章问题
  • 第16章 大数据机器学习库
  • 16.1 机器学习库简介
  • 16.2 MLLib机器学习库
  • 16.3 小结
  • 16.4 本章问题
展开全部