作品简介

本书全面介绍了Hadoop大数据分析的基础知识、14个核心组件模块及4个项目实战案例。为了帮助读者高效、直观地学习,作者特意为本书录制了20小时同步配套教学视频。本书共19章,分为3篇。第1篇Hadoop基础知识,涵盖大数据概述、Hadoop的安装与配置、Hadoop分布式文件系统及基于Hadoop3的HDFS高可用等相关内容;第2篇Hadoop核心技术,涵盖的内容有Hadoop的分布式协调服务——ZooKeeper;分布式离线计算框架——MapReduce;Hadoop的集群资源管理系统——YARN;Hadoop的数据仓库框架——Hive;大数据快速读写——HBase;海量日志采集工具——Flume;Hadoop和关系型数据库间的数据传输工具——Sqoop;分布式消息队列——Kafka;开源内存数据库——Redis;Ambari和CDH;快速且通用的集群计算系统——Spark。第3篇Hadoop项目案例实战,主要介绍了基于电商产品的大数据业务分析系统、用户画像分析、基于个性化的视频推荐系统及电信离网用户挽留4个项目实战案例,以提高读者的大数据项目开发水平。本书内容全面,实用性强,适合作为Hadoop大数据分析与挖掘的入门读物,也可作为Java程序员的进阶读物。另外,本书还特别适合想要提高大数据项目开发水平的人员阅读。对于专业的培训机构和相关院校而言,本书也是一本不可多得的教学用书。

温春水,毕洁馨编著

作品目录

  • 前言
  • 第1篇 Hadoop基础知识
  • 第1章 初识Hadoop
  • 1.1 大数据初探
  • 1.2 Hadoop简介
  • 1.3 小结
  • 第2章 Hadoop的安装与配置
  • 2.1 虚拟机的创建
  • 2.2 安装Linux系统
  • 2.3 配置网络信息
  • 2.4 克隆服务器
  • 2.5 SSH免密码登录
  • 2.6 安装和配置JDK
  • 2.7 Hadoop环境变量配置
  • 2.8 Hadoop分布式安装
  • 2.9 小结
  • 第3章 Hadoop分布式文件系统
  • 3.1 DFS介绍
  • 3.2 HDFS介绍
  • 3.3 Hadoop中HDFS的常用命令
  • 3.4 HDFS的应用
  • 3.5 小结
  • 第4章 基于Hadoop 3的HDFS高可用
  • 4.1 Hadoop 3.x的发展
  • 4.2 Hadoop 3 HDFS完全分布式搭建
  • 4.3 什么是HDFS高可用
  • 4.4 搭建HDFS高可用
  • 4.5 小结
  • 第2篇 Hadoop核心技术
  • 第5章 Hadoop的分布式协调服务——ZooKeeper
  • 5.1 ZooKeeper的核心概念
  • 5.2 ZooKeeper的安装与运行
  • 5.3 ZooKeeper服务器端的常用命令
  • 5.4 客户端连接ZooKeeper的相关操作
  • 5.5 使用Java API访问ZooKeeper
  • 5.6 小结
  • 第6章 分布式离线计算框架——MapReduce
  • 6.1 MapReduce概述
  • 6.2 MapReduce执行过程
  • 6.3 MapReduce实例
  • 6.4 温度排序实例
  • 6.5 小结
  • 第7章 Hadoop的集群资源管理系统——YARN
  • 7.1 为什么要使用YARN
  • 7.2 YARN的基本架构
  • 7.3 YARN工作流程
  • 7.4 YARN搭建
  • 7.5 小结
  • 第8章 Hadoop的数据仓库框架——Hive
  • 8.1 Hive的理论基础
  • 8.2 Hive的配置与安装
  • 8.3 Hive表的操作
  • 8.4 表的分区与分桶
  • 8.5 内部表与外部表
  • 8.6 内置函数与自定义函数
  • 8.7 通过Java访问Hive
  • 8.8 Hive优化
  • 8.9 小结
  • 第9章 大数据快速读写——HBase
  • 9.1 关于NoSQL
  • 9.2 HBase基础
  • 9.3 HBase安装
  • 9.4 HBase的Shell操作
  • 9.5 Java API访问HBase实例
  • 9.6 小结
  • 第10章 海量日志采集工具——Flume
  • 10.1 什么是Flume
  • 10.2 Flume的特点
  • 10.3 Flume架构
  • 10.4 Flume的主要组件
  • 10.5 Flume安装
  • 10.6 Flume应用典型实例
  • 10.7 通过exec命令实现数据收集
  • 10.8 小结
  • 第11章 Hadoop和关系型数据库间的数据传输工具——Sqoop
  • 11.1 什么是Sqoop
  • 11.2 Sqoop工作机制
  • 11.3 Sqoop的安装与配置
  • 11.4 Sqoop数据导入实例
  • 11.5 Sqoop数据导出实例
  • 11.6 小结
  • 第12章 分布式消息队列——Kafka
  • 12.1 什么是Kafka
  • 12.2 Kafka的架构和主要组件
  • 12.3 Kafka的下载与集群安装
  • 12.4 Kafka应用实例
  • 12.5 小结
  • 第13章 开源的内存数据库——Redis
  • 13.1 Redis简介
  • 13.2 Redis安装与配置
  • 13.3 客户端登录
  • 13.4 Redis的数据类型
  • 13.5 小结
  • 第14章 Ambari和CDH
  • 14.1 Ambari的安装与集群管理
  • 14.2 CDH的安装与集群管理
  • 14.3 小结
  • 第15章 快速且通用的集群计算系统——Spark
  • 15.1 Spark基础知识
  • 15.2 弹性分布式数据集RDD
  • 15.3 Spark作业运行机制
  • 15.4 运行在YARN上的Spark
  • 15.5 Spark集群安装
  • 15.6 Spark实例详解
  • 15.7 小结
  • 第3篇 Hadoop项目案例实战
  • 第16章 基于电商产品的大数据业务分析系统实战
  • 16.1 项目背景、实现目标和项目需求
  • 16.2 功能与流程
  • 16.3 数据收集
  • 16.4 数据预处理
  • 16.5 数据分析——创建外部表
  • 16.6 建立模型
  • 16.7 数据可视化
  • 16.8 小结
  • 第17章 用户画像分析实战
  • 17.1 项目背景
  • 17.2 项目目标与项目开发过程
  • 17.3 核心代码解读
  • 17.4 项目部署
  • 17.5 小结
  • 第18章 基于个性化的视频推荐系统实战
  • 18.1 项目背景
  • 18.2 项目目标与推荐系统简介
  • 18.3 推荐系统项目架构
  • 18.4 推荐系统模型构建
  • 18.5 核心代码
  • 18.6 小结
  • 第19章 电信离网用户挽留实战
  • 19.1 商业理解
  • 19.2 数据理解
  • 19.3 数据整理
  • 19.4 数据清洗
  • 19.5 数据转换
  • 19.6 建模
  • 19.7 评估
  • 19.8 部署
  • 19.9 用户离网案例代码详解
  • 19.10 小结
展开全部