作品简介

本书基于真实业务场景,以项目导向为主线,从0到1全面介绍“企业级大数据用户搜索行为分析系统”的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解“用户行为数据采集模块”的开发,第4章讲解“用户行为数据离线分析模块”的开发,第5章讲解“用户行为数据实时分析模块”的开发,这3章采用项目导向的方式,让读者参与实际开发过程;第6章讲解“数据可视化模块”的开发,并整合各模块,测试数据流转,完成项目的开发与部署。

本书项目源自真实业务场景,目的是使读者通过实际项目来理解理论知识并提高实践能力。本书适合缺乏大数据项目经验的从业者阅读,也适合作为高等院校大数据专业的教学用书。

张伟洋,从业近10年,大数据领域资深专家,拥有多年知名互联网公司软件研发经验,曾在互联网旅游公司任软件研发事业部经理。目前从事大数据项目讲师工作,先后多次为各大高校举行大数据专题讲座,对Hadoop及周边大数据框架ZooKeeper、Hive、HBase、Storm、Spark、Flink等有着深入的研究。已出版《Flink大数据分析实战》《Hadoop 3.x大数据实战》等图书。

作品目录

  • 前言
  • 第1章 项目需求描述
  • 1.1 项目需求
  • 1.2 项目数据流设计
  • 1.3 项目架构设计
  • 1.4 集群角色规划
  • 1.5 项目开发环境介绍
  • 第2章 项目开发环境准备
  • 2.1 VMware中安装CentOS 7操作系统
  • 2.2 Linux系统环境配置
  • 2.3 安装JDK
  • 2.4 克隆虚拟机
  • 2.5 配置主机IP映射
  • 2.6 配置集群各节点SSH无密钥登录
  • 2.7 搭建Hadoop分布式集群
  • 2.8 动手练习
  • 第3章 用户行为数据采集模块开发
  • 3.1 用户行为数据来源
  • 3.2 使用Flume采集用户行为数据
  • 3.3 使用Kafka中转用户行为数据
  • 3.4 Flume数据实时写入Kafka
  • 3.5 使用HBase存储用户行为数据
  • 3.6 Flume数据实时写入HBase
  • 3.7 动手练习
  • 第4章 用户行为数据离线分析模块开发
  • 4.1 Hive安装
  • 4.2 Hive数据库操作
  • 4.3 Hive表操作
  • 4.4 Hive离线分析用户行为数据
  • 4.5 Hive集成HBase分析用户行为数据
  • 4.6 Spark集群的搭建
  • 4.7 Spark应用程序的提交
  • 4.8 Spark RDD算子运算
  • 4.9 使用IntelliJ IDEA创建Scala项目
  • 4.10 Spark WordCount项目的创建与运行
  • 4.11 Spark RDD读写HBase
  • 4.12 使用Spark SQL实现单词计数
  • 4.13 Spark SQL数据源操作
  • 4.14 Spark SQL与Hive整合分析
  • 4.15 Spark SQL整合MySQL存储分析结果
  • 4.16 Spark SQL热点搜索词统计
  • 4.17 Spark SQL搜索引擎每日UV统计
  • 4.18 动手练习
  • 第5章 用户行为数据实时分析模块开发
  • 5.1 Spark Streaming程序编写
  • 5.2 Spark Streaming数据源
  • 5.3 DStream操作
  • 5.4 Spark Streaming按批次累加单词数量
  • 5.5 Spark Streaming整合Kafka计算实时单词数量
  • 5.6 Structured Streaming快速实时单词计数
  • 5.7 Structured Streaming编程模型
  • 5.8 Structured Streaming查询输出
  • 5.9 Structured Streaming窗口操作
  • 5.10 Structured Streaming消费Kafka数据实现单词计数
  • 5.11 Structured Streaming输出计算结果到MySQL
  • 5.12 动手练习
  • 第6章 数据可视化模块开发
  • 6.1 IDEA搭建基于SpringBoot的Web项目
  • 6.2 WebSocket数据实时推送
  • 6.3 使用ECharts进行前端视图展示
  • 6.4 多框架整合实时分析用户行为日志数据流
  • 6.5 动手练习
展开全部