作者简介

朱锋,博士毕业于中科院软件所,研究方向为分布式计算与软件工程。长期关注数据分析、数据库技术和大数据相关系统,并积极参与开源社区贡献。2017年加入腾讯,负责Spark SQL相关平台的开发、优化和维护工作,在SQL-on-Hadoop方面积累了丰富的经验。
张韶全,香港中文大学博士,博士期间研究方向为系统最优分布式算法。曾任香港应用研究院研究员、联想香港研发中心高级研究员。现任腾讯大数据平台高级研发工程师,负责腾讯大数据SQL平台的建设与研发,平台规模达到上万台服务器,百万级别业务量,PB级日数据计算量,支撑着腾讯全公司的数据分析业务,拥有多年互联网公司一线的大数据平台设计与研发经验。旨在传播大数据技术和实践经验,使其在不同行业落地生根。
黄明,腾讯T4专家,Spark中国区早期研究者和布道者之一。

内容简介

Spark SQL 是 Spark 技术体系中较有影响力的应用(Killer application),也是 SQL-on-Hadoop 解决方案 中举足轻重的产品。《Spark SQL内核剖析》由 11 章构成,从源码层面深入介绍 Spark SQL 内部实现机制,以及在实际业务场 景中的开发实践,其中包括 SQL 编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregation 算子和 Join 算子的实现与执行、Tungsten 优化技术、生产环境中的一些改造优化经验等。

《Spark SQL内核剖析》不属于入门级教程,需要读者对基本概念有一定的了解。在企业中任职的系统架构师和软件开发人员,以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员,均适合阅读《Spark SQL内核剖析》。


朱锋,博士毕业于中科院软件所,研究方向为分布式计算与软件工程。长期关注数据分析、数据库技术和大数据相关系统,并积极参与开源社区贡献。2017年加入腾讯,负责Spark SQL相关平台的开发、优化和维护工作,在SQL-on-Hadoop方面积累了丰富的经验。

张韶全,香港中文大学博士,博士期间研究方向为系统最优分布式算法。曾任香港应用研究院研究员、联想香港研发中心高级研究员。现任腾讯大数据平台高级研发工程师,负责腾讯大数据SQL平台的建设与研发,平台规模达到上万台服务器,百万级别业务量,PB级日数据计算量,支撑着腾讯全公司的数据分析业务,拥有多年互联网公司一线的大数据平台设计与研发经验。旨在传播大数据技术和实践经验,使其在不同行业落地生根。

黄明,腾讯T4专家,Spark中国区早期研究者和布道者之一。

下载地址

豆瓣评论

  • 漂来漂去
    1. 内容详实,从Parser、Optimizer到Codegen都有涉及2. 没有贴太多代码,画的图倒还不错3. 不足之处在于,仍是从代码到原理,而更符合思维逻辑的是从Why到How;分析的深度有限,例如如何实现Join谓词下推、等价类推导并没有展开4. 感觉书的行文逻辑略奇怪,不断讲解这个class是什么意思、那个method是什么,却没有一个连贯的逻辑来分析从why到how的过程06-09
  • 硅胶鱼
    可以看出作者是肚里有货的,但是这书还是有国内源码分析类书的通病,重源码轻原理和动机。讲的比较散,看得比较累。06-09
  • 三七李
    虽然大部分看不懂但还是学到不少东西… 感觉写的挺好,是我不行,翻完了,有需要回来重读…06-26
  • Mr-Lush
    看来还得多得多学点知识01-19
  • doubin
    用心之作,废话不多,可惜例子不够深入07-11

猜你喜欢

大家都喜欢