作品简介

本书介绍了Hadoop技术的相关知识,并将理论知识与实际项目相结合。全书共分为三个部分:基础篇、应用篇和总结篇。基础篇详细介绍了Hadoop、YARN、MapReduce、HDFS、Hive、Sqoop和HBase,并深入探讨了Hadoop的运维和调优;应用篇则包含了一个具有代表性的完整的基于Hadoop的商业智能系统的设计和实现;结束篇对全书进行总结,并对技术发展做了展望。

范东来,北京航空航天大学硕士,技术图书作者和译者,著有《Hadoop海量数据处理》(该书台湾繁体字版为《Hadoop:BigData技術詳解與專案實作》),译有《解读NoSQL》。BBD(数联铭品)大数据技术部负责人,大数据平台架构师,极客学院布道师。研究方向:并行图挖掘、去中心化应用。

作品目录

  • 版权信息
  • 内容提要
  • 第2版序
  • 第1版序
  • 前言
  • 为什么要写这本书
  • 本书特点有哪些
  • 读者对象是哪些
  • 为什么要写第2版
  • 如何阅读本书
  • 勘误和支持
  • 致谢
  • 基础篇:Hadoop基础
  • 第1章 绪论
  • 1.1 Hadoop和云计算
  • 1.2 Hadoop和大数据
  • 1.3 数据挖掘和商业智能
  • 1.4 小结
  • 第2章 环境准备
  • 2.1 Hadoop的发行版本选择
  • 2.2 Hadoop架构
  • 2.3 安装Hadoop
  • 2.4 安装Hive
  • 2.5 安装HBase
  • 2.6 安装Sqoop
  • 2.7 Cloudera Manager
  • 2.8 小结
  • 第3章 Hadoop的基石:HDFS
  • 3.1 认识HDFS
  • 3.2 HDFS读取文件和写入文件
  • 3.3 如何访问HDFS
  • 3.4 HDFS中的新特性
  • 3.5 小结
  • 第4章 YARN:统一资源管理和调度平台
  • 4.1 YARN是什么
  • 4.2 统一资源管理和调度平台范型
  • 4.3 YARN的架构
  • 4.4 YARN的工作流程
  • 4.5 YARN的调度器
  • 4.6 YARN命令行
  • 4.7 Apache Mesos
  • 4.8 小结
  • 第5章 分而治之的智慧:MapReduce
  • 5.1 认识MapReduce
  • 5.2 Hello Word Count
  • 5.3 MapReduce的过程
  • 5.4 MapReduce的工作机制
  • 5.5 MapReduce编程
  • 5.6 MapReduce编程实例:连接
  • 5.7 MapReduce编程实例:二次排序
  • 5.8 MapReduce编程实例:全排序
  • 5.9 小结
  • 第6章 SQL on Hadoop:Hive
  • 6.1 认识Hive
  • 6.2 数据类型和存储格式
  • 6.3 HQL:数据定义
  • 6.4 HQL:数据操作
  • 6.5 HQL:数据查询
  • 6.6 Hive函数
  • 6.7 Hive用户自定义函数
  • 6.8 小结
  • 第7章 SQL to Hadoop : Sqoop
  • 7.1 一个Sqoop示例
  • 7.2 导入过程
  • 7.3 导出过程
  • 7.4 Sqoop的使用
  • 7.5 小结
  • 第8章 HBase: Hadoop Database
  • 8.1 酸和碱:两种数据库事务方法论
  • 8.2 CAP定理
  • 8.3 NoSQL的架构模式
  • 8.4 HBase的架构模式
  • 8.5 HBase写入和读取数据
  • 8.6 HBase基础API
  • 8.7 HBase高级API
  • 8.8 小结
  • 第9章 Hadoop性能调优和运维
  • 9.1 Hadoop客户端
  • 9.2 Hadoop性能调优
  • 9.3 Hive性能调优
  • 9.4 HBase调优
  • 9.5 Hadoop运维
  • 9.6 小结
  • 应用篇:商业智能系统项目实战
  • 第10章 在线图书销售商业智能系统
  • 10.1 项目背景
  • 10.2 功能需求
  • 10.3 非功能需求
  • 10.4 小结
  • 第11章 系统结构设计
  • 11.1 系统架构
  • 11.2 功能设计
  • 11.3 数据仓库结构
  • 11.4 系统网络拓扑与硬件选型
  • 11.5 技术选型
  • 11.6 小结
  • 第12章 在开发之前
  • 12.1 新建一个工程
  • 12.2 代码目录结构
  • 12.3 项目的环境变量
  • 12.4 如何调试
  • 12.5 小结
  • 第13章 实现数据导入导出模块
  • 13.1 处理流程
  • 13.2 导入方式
  • 13.3 读取配置文件
  • 13.4 SqoopUtil
  • 13.5 整合
  • 13.6 导入说明
  • 13.7 导出模块
  • 13.8 小结
  • 第14章 实现数据分析工具模块
  • 14.1 处理流程
  • 14.2 读取配置文件
  • 14.3 HiveUtil
  • 14.4 整合
  • 14.5 数据分析和报表
  • 14.6 小结
  • 第15章 实现业务数据的数据清洗模块
  • 15.1 ETL
  • 15.2 处理流程
  • 15.3 数据去重
  • 15.4 小结
  • 第16章 实现点击流日志的数据清洗模块
  • 16.1 数据仓库和Web
  • 16.2 处理流程
  • 16.3 字段的获取
  • 16.4 编写MapReduce作业
  • 16.5 还能做什么
  • 16.6 小结
  • 第17章 实现购书转化率分析模块
  • 17.1 漏斗模型
  • 17.2 处理流程
  • 17.3 读取配置文件
  • 17.4 提取所需数据
  • 17.5 编写转化率分析MapReduce作业
  • 17.6 对中间结果进行汇总得到最终结果
  • 17.7 整合
  • 17.8 小结
  • 第18章 实现购书用户聚类模块
  • 18.1 物以类聚
  • 18.2 聚类算法
  • 18.3 用MapReduce实现聚类算法
  • 18.4 处理流程
  • 18.5 提取数据并做归一化
  • 18.6 维度相关性
  • 18.7 使用Mahout完成聚类
  • 18.8 得到最终结果
  • 18.9 评估聚类结果
  • 18.10 小结
  • 第19章 实现调度模块
  • 19.1 工作流
  • 19.2 编写代码
  • 19.3 crontab
  • 19.4 让数据说话
  • 19.5 小结
  • 结束篇:总结和展望
  • 第20章 总结和展望
  • 20.1 总结
  • 20.2 BDAS
  • 20.3 Dremel系技术
  • 20.4 Pregel系技术
  • 20.5 Docker和Kubernetes
  • 20.6 数据集成工具NiFi
  • 20.7 小结
  • 参考文献
  • 欢迎来到异步社区!
  • 异步社区的来历
  • 社区里都有什么?
  • 灵活优惠的购书
  • 社区里还可以做什么?
  • 加入异步
  • 看完了
展开全部