作品简介

全书共8章:第1章介绍Flink设计理念与基本架构;第2章介绍DataStream的设计与实现;第3章介绍运行时的核心原理与实现,包括Dispatcher、ResourceManager以及JobManager等核心组件的源码级解析和介绍;第4章介绍Flink任务提交与执行的整体流程,包括客户端实现、运行时作业执行过程、JobGraph及ExecutionGraph图转换等;第5章介绍不同的集群部署模式,包括On Yarn、On Kubernetes等;第6章介绍状态管理与容错,包括不同类型状态后端的设计与实现;第7章介绍Flink网络通信,包括RPC通信以及基于Netty实现的网络栈;第8章介绍Flink内存管理,包括MemorySegment的设计与实现等。

张利兵,资深架构师,流式计算领域专家,第四范式华东区AI项目架构师,原明略数据华东区大数据架构师。有多年大数据、流式计算方面的开发经验,对Hadoop、Spark、Flink等大数据计算引擎有着非常深入的理解,积累了丰富的项目实践经验。先后利用相关技术为银行、证券、地铁等领域的头部企业构建了内部大数据平台,参与了基于Flink的实时反欺诈风控、实时地铁故障预警等流式计算平台的设计和研发。

作品目录

  • 前言
  • 第1章 Flink设计理念与基本架构
  • 1.1 Flink基本设计思想
  • 1.2 Flink整体架构
  • 1.3 Flink源码分析与编译
  • 1.4 本章小结
  • 第2章 DataStream的设计与实现
  • 2.1 DataStream API的主要组成
  • 2.2 StreamOperator的定义与实现
  • 2.3 Function的定义与实现
  • 2.4 TimerService的设计与实现
  • 2.5 DataStream核心转换
  • 2.6 本章小结
  • 第3章 运行时的核心原理与实现
  • 3.1 运行时的整体架构
  • 3.2 运行时组件的创建和启动
  • 3.3 集群资源管理
  • 3.4 系统高可用与容错
  • 3.5 本章小结
  • 第4章 任务提交与执行
  • 4.1 客户端作业提交
  • 4.2 ExecutionEnvironment初始化
  • 4.3 将Pipeline转换成JobGraph
  • 4.4 JobGraph的接收与运行
  • 4.5 ExecutionGraph的调度与执行
  • 4.6 Task的执行与注销
  • 4.7 本章小结
  • 第5章 集群部署模式
  • 5.1 基本概念
  • 5.2 Flink On Yarn的设计与实现
  • 5.3 Flink On Kubernetes的设计与实现
  • 5.4 本章小结
  • 第6章 状态管理与容错
  • 6.1 状态数据管理
  • 6.2 KeyedState的创建与管理
  • 6.3 OperatorState的创建与管理
  • 6.4 StateBackend详解
  • 6.5 Checkpoint的设计与实现
  • 6.6 本章小结
  • 第7章 网络通信
  • 7.1 集群RPC通信机制
  • 7.2 NetworkStack的设计与实现
  • 7.3 基于信用值的反压机制实现
  • 7.4 本章小结
  • 第8章 内存管理
  • 8.1 内存管理概述
  • 8.2 MemorySegment的设计与实现
  • 8.3 DataInputView与DataOutputView
  • 8.4 数据序列化与反序列化
  • 8.5 本章小结
展开全部