作品简介

本书主要分析Hadoop3.2.0的新特性和新功能,共5章。首先简单介绍Hadoop,让刚接触Hadoop的读者对它有个基本了解;接着介绍目前使用比较多的分布式文件系统HDFS,内容涉及NameNode的原理、HA、HDFS Federation和HDFS 3.0中新增的特性;然后从应用管理和资源调度这两个方面介绍一个通用的资源管理平台YARN;再后讨论如何在YARN平台中运行应用,比如如何将应用迁移到YARN平台,以及非Hadoop的应用是如何兼容YARN模式的。最后,书中给出了一些工作实战指南,包括如何搭建一个生产可用的Hadoop 3.0集群;如何将现有Hadoop 2.0集群升级到Hadoop 3.0,及其在升级过程中遇到的问题;如何针对Hadoop进行二次开发,并参与社区,向社区贡献代码;一个大数据平台应具备哪些必备组件等。

孙志伟,金山云数据平台架构师,专注于Hadoop生态和数据平台建设,曾就职于网易、转转等互联网公司。对大数据处理、分布式计算与数据采集有着浓厚的兴趣。一直从事Hadoop研发与运维工作,努力钻研技术并坚持分享。有着丰富的一线研发与运维经验,是多个社区的Contributor,积极活跃于开源社区。硕士,毕业于华北电力大学。

作品目录

  • 前言
  • 第 1 章 Hadoop
  • 1.1 简介
  • 1.2 Hadoop 3.0
  • 1.3 阅读Hadoop源码
  • 1.4 小结
  • 第 2 章 HDFS
  • 2.1 HDFS简介
  • 2.2 解析NameNode中的元数据及其内存结构
  • 2.3 解析NameNode的HA功能
  • 2.4 HDFS的Federation
  • 2.5 纠删码
  • 2.6 下一代对象存储系统Ozone
  • 2.7 小结
  • 第 3 章 YARN
  • 3.1 YARN简介
  • 3.2 解析ResourceManager的HA功能
  • 3.3 YARN Federation
  • 3.4 中央调度器
  • 3.5 分布式调度器
  • 3.6 YARN Shared Cache
  • 3.7 小结
  • 第 4 章 Application on YARN
  • 4.1 MapReduce的简介
  • 4.2 MapReduce的源码分析
  • 4.3 MapReduce on YARN
  • 4.4 Application on YARN
  • 4.5 小结
  • 第 5 章 实战指南
  • 5.1 Hadoop 3.x的部署
  • 5.2 Hadoop升级
  • 5.3 二次开发
  • 5.4 周边系统平台
  • 5.5 小结
展开全部