作品简介

本书侧重于大数据的实践性技术,系统地介绍了主流大数据平台及工具的安装部署、管理维护和应用开发。平台和工具的选择均为当前业界主流的开源产品,因此,对于读者来说

本书涉及的开源技术包括:HDFS、MapReduce、YARN、Zookeeper、HBase、Hive、Sqoop、Storm、Kafka、Flume等。除介绍一般性的背景知识、安装部署、管理维护和应用开发技?

本书主要内容包括以下几大部分。

大数据存储篇:以HDFS为基础,介绍分布式文件系统的原理、安装、fs命令的使用、编程,介绍如何用HDFS实现,并通过HTTP调用。

大数据计算篇:以MapReduce、YARN为基础,介绍分布式计算的原理、部署,以及编程案例。

非关系型数据库篇:以HBase为基础,重点介绍非关系型数据库的优势、原理、部署,以及命令行使用,编程案例,与Sqoop配合使用等。

大数据仓库篇:以Hive、数据仓库等为基础,重点介绍数据的抽取、原理、部署、分析与编程。

大数据实时计算篇:以Storm、Kafka为基础,介绍实时计算的架构、组成、使用与开发。

本书非常适合从事大数据技术开发与使用的初学者,以及从事大数据技术研发的企事业单位工程师学习和参考,也适合高校计算机相关专业的专科生、本科生和研究生学习使用。

祁伟 主编。

作品目录

  • 内容简介
  • 前言
  • 大数据存储篇
  • 第1章 概述
  • 1.1 什么是大数据
  • 1.2 大数据的技术转型
  • 1.3 数据分片
  • 1.4 数据一致性
  • 1.5 主流大数据技术
  • 1.6 大数据职业方向
  • 1.7 大数据实践平台的搭建
  • 1.8 小结
  • 第2章 HDFS文件系统
  • 2.1 HDFS概述
  • 2.2 HDFS的运行机制
  • 2.3 HDFS的数据存储
  • 2.4 HDFS的安装和配置
  • 2.5 小结
  • 第3章 HDFS操作实践
  • 3.1 HDFS接口与编程
  • 3.2 操作实践
  • 3.3 小结
  • 大数据计算篇
  • 第4章 YARN
  • 4.1 YARN概述
  • 4.2 YARN的主要组成模块
  • 4.3 YARN的整体设计
  • 4.4 容量调度器
  • 4.5 公平调度器(Fair Scheduler)
  • 4.6 资源管理者(RM)重启机制
  • 4.7 资源管理器的高可用性(RM HA)
  • 4.8 节点标签
  • 4.9 YARN编程
  • 4.10 YARN服务注册
  • 4.11 小结
  • 第5章 MapReduce
  • 5.1 MapReduce概述
  • 5.2 Key-Value结构的特点
  • 5.3 MapReduce的部署
  • 5.4 MapReduce的程序结构
  • 5.5 MapReduce的编程接口
  • 5.6 MapReduce的命令行
  • 5.7 WordCount的实现
  • 5.8 小结
  • 非关系型数据库篇
  • 第6章 使用HBase
  • 6.1 HBase基础
  • 6.2 HBase的架构原理
  • 6.3 HBase的命令实践
  • 6.4 HBase的数据管理
  • 6.5 HBase的集群管理
  • 6.6 小结
  • 第7章 HBase编程开发
  • 7.1 HBase的编程接口
  • 7.2 表与命名空间的编程
  • 7.3 数据编程
  • 7.4 集群与优化编程
  • 7.5 小结
  • 大数据仓库篇
  • 第8章 数据仓库概论
  • 8.1 初识数据仓库
  • 8.2 数据仓库的核心概念
  • 8.3 数据仓库中的数据内容划分
  • 8.4 OLAP
  • 8.5 ETL
  • 8.6 调度和运行
  • 8.7 数据仓库的架构
  • 8.8 数据仓库的展望
  • 8.9 小结
  • 第9章 Hive
  • 9.1 初识Hive
  • 9.2 Hive命令行接口
  • 9.3 Hive数据类型与常见的结构
  • 9.4 HiveSQL
  • 9.5 Hive的自定义函数
  • 9.6 Hive的高级使用
  • 9.7 使用Hive构建数据仓库
  • 9.8 小结
  • 大数据实时计算篇
  • 第10章 Storm实时系统
  • 10.1 大数据实时系统概述
  • 10.2 Kafka分布式消息系统
  • 10.3 Storm实时处理系统
  • 10.4 小结
  • 参考文献
展开全部