作品简介

本书分为三篇。第壹篇:从整体上给出数据大图和数据平台大图,主要介绍数据的主要流程、各个流程的关键技术、数据的主要从业者及他们的职责等;数据平台大图分离线和实时分别给出数据平台架构、关键数据概念和技术等;第二篇:介绍离线数据开发的主要技术,包含Hadoop、Hive、维度建模等,另外此部分还将综合上述各种离线技术给出离线数据处理实战;第三篇:集中介绍实时数据处理的各项技术,包含Storm、SparkSteaming、Flink、Beam等。

朱松岭著。

作品目录

  • 前言
  • 第一篇 数据大图和数据平台大图
  • 第1章 数据大图
  • 1.1 数据流程
  • 1.2 数据技术
  • 1.3 数据相关从业者和角色
  • 1.4 本章小结
  • 第2章 数据平台大图
  • 2.1 离线数据平台的架构、技术和设计
  • 2.2 实时数据平台的架构、技术和设计
  • 2.3 数据管理
  • 2.4 本章小结
  • 第二篇 离线数据开发:大数据开发的主战场
  • 第3章 Hadoop原理实践
  • 3.1 开启大数据时代的Hadoop
  • 3.2 HDFS和MapReduce优缺点分析
  • 3.3 HDFS和MapReduce基本架构
  • 3.4 MapReduce内部原理实践
  • 3.5 本章小结
  • 第4章 Hive原理实践
  • 4.1 离线大数据处理的主要技术:Hive
  • 4.2 Hive SQL
  • 4.3 Hive SQL执行原理图解
  • 4.4 Hive函数
  • 4.5 其他SQL on Hadoop技术
  • 4.6 本章小结
  • 第5章 Hive优化实践
  • 5.1 离线数据处理的主要挑战:数据倾斜
  • 5.2 Hive优化
  • 5.3 join无关的优化
  • 5.4 大表join小表优化
  • 5.5 大表join大表优化
  • 5.6 本章小结
  • 第6章 维度建模技术实践
  • 6.1 大数据建模的主要技术:维度建模
  • 6.2 维度表设计
  • 6.3 深入事实表
  • 6.4 大数据的维度建模实践
  • 6.5 本章小结
  • 第7章 Hadoop数据仓库开发实战
  • 7.1 业务需求
  • 7.2 Hadoop数据仓库架构设计
  • 7.3 Hadoop数据仓库规范设计
  • 7.4 FutureRetailer数据仓库构建实践
  • 7.5 数据平台新架构——数据湖
  • 7.6 本章小结
  • 第三篇 实时数据开发:大数据开发的未来
  • 第8章 Storm流计算开发
  • 8.1 流计算技术的鼻祖:Storm技术
  • 8.2 Storm实时开发示例
  • 8.3 Storm高级原语Trident
  • 8.4 Storm关键技术
  • 8.5 本章小结
  • 第9章 Spark Streaming流计算开发
  • 9.1 Spark生态和核心概念
  • 9.2 Spark生态的流计算技术:Spark Streaming
  • 9.3 Spark Streaming的实时开发示例
  • 9.4 Spark Streaming调优实践
  • 9.5 Spark Streaming关键技术
  • 9.6 本章小结
  • 第10章 Flink流计算开发
  • 10.1 流计算技术新贵:Flink
  • 10.2 Flink API
  • 10.3 Flink实时开发示例
  • 10.4 Flink关键技术详解
  • 10.5 本章小结
  • 第11章 Beam技术
  • 11.1 意图一统流计算的Beam
  • 11.2 Beam技术核心:Beam Model
  • 11.3 Beam SDK
  • 11.4 Beam窗口详解
  • 11.5 本章小结
  • 第12章 Stream SQL实时开发实战
  • 12.1 流计算SQL原理和架构
  • 12.2 流计算SQL:未来主要的实时开发技术
  • 12.3 Stream SQL
  • 12.4 Stream SQL的实时开发实战
  • 12.5 撤回机制
  • 12.6 本章小结
  • 参考文献
展开全部