作品简介

本书基于Spark2.2.0新版本(2017年7月11日发布),以Spark商业案例实战和Spark在生产环境下几乎所有类型的性能调优为核心,以Spark内核解密为基石,分为上篇、中篇、下篇,对企业生产环境下的Spark商业案例与性能调优抽丝剥茧地进行剖析。上篇基于Spark源码,从一个动手实战案例入手,循序渐进地全面解析了Spark2.2新特性及Spark内核源码;中篇选取Spark开发中具有代表的经典学习案例,深入浅出地介绍,在案例中综合应用Spark的大数据技术;下篇性能调优内容基本完全覆盖了Spark在生产环境下的所有调优技术。本书适合所有Spark学习者和从业人员使用。对于有分布式计算框架应用经验的人员,本书也可以作为Spark高手修炼的参考书籍。同时,本书也特别适合作为高等院校的大数据教材使用。

王家林

中国著名的Spark培训专家,Apache Spark、Android技术中国区布道师,DT大数据梦工厂创始人和首席专家,Android软硬件整合专家。深入研究了Spark从0.5.0到2.2.1中共31个版本的Spark源码,目前致力于开发优化的Spark中国版本。尤其擅长Spark在生产环境下各种类型和场景故障的排除和解决,痴迷于Spark在生产环境下任意类型(例如Shuffle和各种内存问题及数据倾斜问题等)的深度性能优化。

段智华

就职于中国电信股份有限公司上海分公司,系统架构师,CSDN博客专家。专注于Spark大数据技术研发及推广,跟随Spark核心源码技术的发展,深入研究Spark2.1.1版本及Spark2.2.1版本的源码优化,对Spark大数据处理、机器学习等技术领域有丰富的实战经验和浓厚兴趣。

作品目录

  • 作者简介
  • 内容简介
  • 前言
  • 上篇 内核解密
  • 第1章 电光石火间体验Spark 2.2开发实战
  • 第2章 Spark 2.2技术及原理
  • 第3章 Spark的灵魂:RDD和DataSet
  • 第4章 Spark Driver启动内幕剖析
  • 第5章 Spark集群启动原理和源码详解
  • 第6章 Spark Application提交给集群的原理和源码详解
  • 第7章 Shuffle原理和源码详解
  • 第8章 Job工作原理和源码详解
  • 第9章 Spark中Cache和checkpoint原理和源码详解
  • 第10章 Spark中Broadcast和Accumulator原理和源码详解
  • 第11章 Spark与大数据其他经典组件整合原理与实战
  • 中篇 商业案例
  • 第12章 Spark商业案例之大数据电影点评系统应用案例
  • 第13章 Spark 2.2实战之Dataset开发实战企业人员管理系统应用案例
  • 第14章 Spark商业案例之电商交互式分析系统应用案例
  • 第15章 Spark商业案例之NBA篮球运动员大数据分析系统应用案例
  • 第16章 电商广告点击大数据实时流处理系统案例
  • 第17章 Spark在通信运营商生产环境中的应用案例
  • 第18章 使用Spark GraphX实现婚恋社交网络多维度分析案例
  • 下篇 性能调优
  • 第19章 对运行在YARN上的Spark进行性能调优
  • 第20章 Spark算子调优最佳实践
  • 第21章 Spark频繁遇到的性能问题及调优技巧
  • 第22章 Spark集群资源分配及并行度调优最佳实践
  • 第23章 Spark集群中Mapper端、Reducer端内存调优
  • 第24章 使用Broadcast实现Mapper端Shuffle聚合功能的原理和调优实战
  • 第25章 使用Accumulator高效地实现分布式集群全局计数器的原理和调优案例
  • 第26章 Spark下JVM性能调优最佳实践
  • 第27章 Spark五大子框架调优最佳实践
  • 第28章 Spark 2.2.0新一代钨丝计划优化引擎
  • 第29章 Spark Shuffle调优原理及实践
  • 第30章 Spark性能调优之数据倾斜调优一站式解决方案原理与实战
  • 第31章 Spark大数据性能调优实战专业之路
  • 后记
展开全部