- 书名
大数据处理框架Apache Spark设计与实现
- 作者许利杰方亚芬
- 格式PDF
- ISBN书号9787121391712
- 出版年2020-8
- 出版社电子工业出版社
- 页数276
- 定价106
- 装帧平装
- 标签
工业技术
作者简介
许利杰
现任中国科学院软件研究所副研究员、硕士生导师,于中科院软件所获得博士学位。当前主要从事大数据系统方面的研究工作,已在国际权威会议如VLDB、ICDCS、IPDPS、ISSRE、ICAC等发表论文10余篇,主持多项国家自然科学基金,以及华为、京东、联想等企业的合作研发项目。
曾为Apache Spark和Hadoop修复多个内核代码严重错误,编写的SparkInternals技术文档被社区广泛关注,获得四千多颗星。
博士期间曾在微软亚洲研究院、阿里巴巴、腾讯担任客座研究学生。目前还担任中国计算机学会系统软件专委会委员、中国科学院青年创新促进会会员。
方亚芬
现任中国科学院软件研究所工程师,于南开大学获得学士学位、中科院软件所获得硕士学位。
当前主要从事大数据系统、操作系统方面的研发工作,参与多项国家自然科学基金、国家重点研发计划,以及华为、腾讯、中国邮政等企业的合作研发项目。
曾在阿里巴巴等担任客座研究学生,目前是华为openEuler社区树莓派项目负责人。
内容简介
近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。《大数据处理框架Apache Spark设计与实现》以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理论、典型的Spark应用,以及相关的性能和可靠性问题。《大数据处理框架Apache Spark设计与实现》分9章,主要包含四部分内容。第一部分大数据处理框架的基础知识(第1~2章):介绍大数据处理框架的基本概念、系统架构、编程模型、相关的研究工作,并以一个典型的Spark应用为例概述Spark应用的执行流程。第二部分Spark大数据处理框架的核心理论(第3~4章):介绍Spark框架将应用程序转化为逻辑处理流程,进而转化为可并行执行的物理执行计划的一般过程及方法。第三部分典型的Spark应用(第5章):介绍迭代型的Spark机器学习应用和图计算应用。第四部分大数据处理框架性能和可靠性保障机制(第6~9章):介绍Spark框架的Shuffle机制、数据缓存机制、错误容忍机制、内存管理机制等。
许利杰
现任中国科学院软件研究所副研究员、硕士生导师,于中科院软件所获得博士学位。当前主要从事大数据系统方面的研究工作,已在国际权威会议如VLDB、ICDCS、IPDPS、ISSRE、ICAC等发表论文10余篇,主持多项国家自然科学基金,以及华为、京东、联想等企业的合作研发项目。
曾为Apache Spark和Hadoop修复多个内核代码严重错误,编写的SparkInternals技术文档被社区广泛关注,获得四千多颗星。
博士期间曾在微软亚洲研究院、阿里巴巴、腾讯担任客座研究学生。目前还担任中国计算机学会系统软件专委会委员、中国科学院青年创新促进会会员。
方亚芬
现任中国科学院软件研究所工程师,于南开大学获得学士学位、中科院软件所获得硕士学位。
当前主要从事大数据系统、操作系统方面的研发工作,参与多项国家自然科学基金、国家重点研发计划,以及华为、腾讯、中国邮政等企业的合作研发项目。
曾在阿里巴巴等担任客座研究学生,目前是华为openEuler社区树莓派项目负责人。
猜你喜欢
-
叶维忠
-
[日]冈田吉之
-
曹振杰
-
[日] 新井纪子
-
[美] 彭慕兰
-
坂根正弘
-
李淼
-
李庆丰
-
王静
-
-
茂木喜久雄
-
柴树杉
-
陈浩
-
[美] 埃斯瓦尔·S. 普拉萨德
大家都喜欢
-
野地秩嘉
-
[法]伊莱娜·内米洛夫斯基
-
英国DK公司
-
伊查克・爱迪思
-
-
袁腾飞
-
章太炎等
-
李宏军
-
[西] 阿尔瓦罗·毕尔巴鄂
-
纪志宏 等
-
余秋雨
-
杨天宏
-
David Wilcock
-
李翔
豆瓣评论