作品简介

《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。

《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。

《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。

许鹏:长期致力于电信领域和互联网的软件研发,在数据处理方面积累了大量经验,对系统的可扩展性、可靠性方面进行过深入学习和研究。因此,累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核,作者也曾进行过深入的分析。

作品目录

  • 前言
  • 第一部分 Spark概述
  • 第1章 初识Spark
  • 1.1 大数据和Spark
  • 1.2 与Spark的第一次亲密接触
  • 第二部分 Spark核心概念
  • 第2章 Spark整体框架
  • 2.1 编程模型
  • 2.2 运行框架
  • 2.3 源码阅读环境准备
  • 第3章 SparkContext初始化
  • 3.1 spark-shell
  • 3.2 SparkContext的初始化综述
  • 3.3 SparkRepl综述
  • 第4章 Spark作业提交
  • 4.1 作业提交
  • 4.2 作业执行
  • 4.3 存储机制
  • 第5章 部署方式分析
  • 5.1 部署模型
  • 5.2 单机模式local
  • 5.3 伪集群部署local-cluster
  • 5.4 原生集群Standalone Cluster
  • 5.5 SparkOn YARN
  • 第三部分 Spark Lib
  • 第6章 SparkStreaming
  • 6.1 SparkStreaming整体架构
  • 6.2 SparkStreaming执行过程
  • 6.3 窗口操作
  • 6.4 容错性分析
  • 6.5 SparkStreaming vs.Storm
  • 6.6 应用举例
  • 第7章 SQL
  • 7.1 SQL语句的通用执行过程分析
  • 7.2 SQLOn Spark的实现分析
  • 7.3 Parquet文件和JSON数据集
  • 7.4 Hive简介
  • 7.5 HiveQLOn Spark详解
  • 第8章 GraphX
  • 8.1 GraphX简介
  • 8.2 分布式图计算处理技术介绍
  • 8.3 Pregel计算模型
  • 8.4 GraphX图计算框架实现分析
  • 8.5 PageRank
  • 第9章 MLLib
  • 9.1 线性回归
  • 9.2 线性回归的代码实现
  • 9.3 分类算法
  • 9.4 拟牛顿法
  • 9.5 MLLib与其他应用模块间的整合
  • 第四部分 附录
  • 附录A Spark源码调试
  • A.3.1 导入Spark源码
  • 附录B 源码阅读技巧
展开全部