HAWQ数据仓库与数据挖掘实战电子书免费在线阅读,免费在线试读,作者：王雪迎 -琅嬛苑

书名
HAWQ数据仓库与数据挖掘实战
作者王雪迎
出版社清华大学出版社 / 2018-04
字数约 181,000 字
全本定价￥58.80

作品简介

ApacheHAWQ是一个SQL-on-Hadoop产品，它非常适合用于Hadoop平台上快速构建数据仓库系统。HAWQ具有大规模并行处理、完善的SQL兼容性、支持存储过程和事务、出色的性能表现等特性，还可与开源数据挖掘库MADlib轻松整合，从而使用SQL就能进行数据挖掘与机器学习。《HAWQ数据仓库与数据挖掘实战》内容分技术解析、实战演练与数据挖掘三个部分共27章。技术解析部分说明HAWQ的基础架构与功能特性，包括安装、连接、对象与资源管理、查询优化、备份恢复、高可用性等。实战演练部分用一个完整的示例，说明如何使用HAWQ取代传统数据仓库，包括ETL处理、自动调度系统、维度表与事实表技术、OLAP与数据的图形化表示等。数据挖掘部分用实例说明HAWQ与MADlib整合，实现降维、协同过滤、关联规则、回归、聚类、分类等常见数据挖掘与机器学习方法。《HAWQ数据仓库与数据挖掘实战》适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员，也适合高等院校和培训机构相关专业的师生教学参考。

王雪迎，毕业于中国地质大学计算机专业，高级工程师，从事数据库、数据仓库相关技术工作20年。先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司，担任DBA、数据架构师等职位。著有图书《Hadoop数据仓库实践》。

作品目录

作者简介
内容简介
推荐序
前言
第一部分 HAWQ技术解析
第1章 ◄HAWQ概述►
1.1　SQL-on-Hadoop
1.2　HAWQ简介
1.3　HAWQ系统架构
1.4　为什么选择HAWQ
1.5　小结
第2章 ◄HAWQ安装部署►
2.1　安装规划
2.2　安装前准备
2.3　安装Ambari
2.4　安装HDP集群
2.5　安装HAWQ
2.6　启动与停止HAWQ
2.7　小结
第3章 ◄连接管理►
3.1　配置客户端身份认证
3.2　管理角色与权限
3.3　psql连接HAWQ
3.4　Kettle连接HAWQ
3.5　连接常见问题
3.6　小结
第4章 ◄数据库对象管理►
4.1　创建和管理数据库
4.2　创建和管理表空间
4.3　创建和管理模式
4.4　创建和管理表
4.5　创建和管理视图
4.6　管理其他对象
4.7　小结
第5章 ◄分区表►
5.1　HAWQ中的分区表
5.2　确定分区策略
5.3　创建分区表
5.4　分区消除
5.5　分区表维护
5.6　小结
第6章 ◄存储管理►
6.1　数据存储选项
6.2　数据分布策略
6.3　从已有的表创建新表
6.4　小结
第7章 ◄资源管理►
7.1　HAWQ资源管理概述
7.2　配置独立资源管理器
7.3　整合YARN
7.4　管理资源队列
7.5　查询资源管理器状态
7.6　小结
第8章 ◄数据管理►
8.1　基本数据操作
8.2　数据装载与卸载
8.3　数据库统计
8.4　PXF
8.5　小结
第9章 ◄过程语言►
9.1　HAWQ内建SQL语言
9.2　PL/pgSQL函数
9.3　给HAWQ内部函数起别名
9.4　表函数
9.5　参数个数可变的函数
9.6　多态类型
9.7　UDF管理
9.8　UDF实例——递归树形遍历
9.9　小结
第10章 ◄查询优化►
10.1　HAWQ的查询处理流程
10.2　GPORCA查询优化器
10.3　性能优化
10.4　查询剖析
10.5　小结
第11章 ◄高可用性►
11.1　备份与恢复
11.2　高可用性
11.3　小结
第二部分 HAWQ实战演练
第12章 ◄建立数据仓库示例模型►
12.1　业务场景
12.2　数据仓库架构
12.3　实验环境
12.4　HAWQ相关配置
12.5　创建示例数据库
12.6　小结
第13章 ◄初始ETL►
13.1　用Sqoop初始数据抽取
13.2　向HAWQ初始装载数据
13.3　建立初始ETL脚本
13.4　小结
第14章 ◄定期ETL►
14.1　变化数据捕获
14.2　创建维度表版本视图
14.3　创建时间戳表
14.4　用Sqoop定期数据抽取
14.5　建立定期装载HAWQ函数
14.6　建立定期ETL脚本
14.7　测试
14.8　动态分区滚动
14.9　准实时数据抽取
14.10　小结
第15章 ◄自动调度执行ETL作业►
15.1　Oozie简介
15.2　建立工作流前的准备
15.3　用Oozie建立定期ETL工作流
15.4　Falcon简介
15.5　用Falcon process调度Oozie工作流
15.6　小结
第16章 ◄维度表技术►
16.1　增加列
16.2　维度子集
16.3　角色扮演维度
16.4　层次维度
16.5　退化维度
16.6　杂项维度
16.7　维度合并
16.8　分段维度
16.9　小结
第17章 ◄事实表技术►
17.1　周期快照
17.2　累积快照
17.3　无事实的事实表
17.4　迟到的事实
17.5　累积度量
17.6　小结
第18章 ◄联机分析处理►
18.1　联机分析处理简介
18.2　联机分析处理实例
18.3　交互查询与图形化显示
18.4　小结
第三部分 HAWQ数据挖掘
第19章 ◄整合HAWQ与MADlib►
19.1　MADlib简介
19.2　安装与卸载MADlib
19.3　MADlib基础
19.4　小结
第20章 ◄奇异值分解►
20.1　奇异值分解简介
20.2　MADlib奇异值分解函数
20.3　奇异值分解实现推荐算法
20.4　小结
第21章 ◄主成分分析►
21.1　主成分分析简介
21.2　MADlib的PCA相关函数
21.3　PCA应用示例
21.4　小结
第22章 ◄关联规则方法►
22.1　关联规则简介
22.2　Apriori算法
22.3　MADlib的Apriori算法函数
22.4　Apriori应用示例
22.5　小结
第23章 ◄聚类方法►
23.1　聚类方法简介
23.2　k-means方法
23.3　MADlib的k-means相关函数
23.4　k-means应用示例
23.5　小结
第24章 ◄回归方法►
24.1　回归方法简介
24.2　Logistic回归
24.3　MADlib的Logistic回归相关函数
24.4　Logistic回归示例
24.5　小结
第25章 ◄分类方法►
25.1　分类方法简介
25.2　决策树
25.3　MADlib的决策树相关函数
25.4　决策树示例
25.5　小结
第26章 ◄图算法►
26.1　图算法简介
26.2　单源最短路径
26.3　MADlib的单源最短路径相关函数
26.4　单源最短路径示例
26.5　小结
第27章 ◄模型验证►
27.1　交叉验证简介
27.2　MADlib的交叉验证相关函数
27.3　交叉验证示例
27.4　小结

展开全部