作品简介

本书以面向应用、面向实战为指导思想,紧扣企业技术人才培养的特点,在知识点讲解和实验中避免复杂的理论,使读者能快速上手体验、验证大数据处理的魅力,以激发读者的学习兴趣。

本书覆盖了大数据生命周期中的主要技术要点,全书共8章,第1章介绍大数据的产生和特点及思维的变革,第2章了解大数据生态系统,第3~7章按照大数据的生命周期,分别讨论大数据采集与预处理、大数据管理、大数据分析、大数据可视化、大数据应用的基本原理和方法,第8章讨论大数据安全面临的挑战。

本书可作为本科、高职院校大数据技术或数据科学课程的参考书或教材,也可供数据科学相关技术人员阅读。

程显毅编著。

作品目录

  • 前言
  • 第1章 概论
  • 1.1 揭秘大数据
  • 1.1.1 大数据产生历史必然
  • 1.1.2 大数据概念和特征
  • 1.1.3 大数据生命周期
  • 1.1.4 大数据与物联网、云计算、人工智能
  • 1.1.5 大数据时代的八个重大变革
  • 1.2 Linux系统概述
  • 1.2.1 Linux版本
  • 1.2.2 Linux系统目录结构
  • 1.2.3 文本编辑器vi
  • 1.2.4 文件权限解读
  • 1.2.5 Linux系统常用命令
  • 习题1
  • 实验报告1 Linux实验
  • 第2章 大数据生态系统
  • 2.1 认识Hadoop
  • 2.2 HDFS
  • 2.2.1 HDFS体系结构
  • 2.2.2 HDFS存储原理
  • 2.2.3 HDFS常用操作
  • 2.3 MapReduce
  • 2.3.1 MapReduce逻辑结构
  • 2.3.2 MapReduce操作案例
  • *2.4 Zookeeper
  • 习题2
  • 实验报告2 Hadoop实验
  • 第3章 大数据采集与预处理
  • 3.1 数据
  • 3.1.1 数据是什么
  • 3.1.2 数据分类
  • 3.1.3 度量和维度
  • 3.2 数据采集
  • 3.2.1 数据采集分类
  • 3.2.2 数据采集方法
  • 3.2.3 数据采集工具
  • 3.3 数据清洗
  • 3.3.1 数据清洗原理
  • 3.3.2 缺失值和异常数据
  • 3.3.3 数据清洗基本操作
  • 3.4 网络爬虫
  • 3.4.1 爬虫简介
  • *3.4.2 论坛爬虫源代码分析
  • 习题3
  • *实验报告3 网络爬虫
  • 第4章 大数据管理
  • 4.1 NoSQL
  • 4.1.1 NoSQL概述
  • 4.1.2 键值数据库
  • 4.1.3 图数据库
  • 4.1.4 文档数据库
  • 4.1.5 列式数据库
  • 4.1.6 云数据库
  • 4.2 HBase
  • 4.2.1 HBase模型
  • 4.2.2 HBase与传统关系数据库的对比分析
  • 4.2.3 HBase系统架构
  • 4.2.4 HBase常用Shell命令
  • 习题4
  • 实验报告4 HBase实验
  • 第5章 大数据分析
  • 5.1 大数据分析概述
  • 5.1.1 数据分析原则
  • 5.1.2 大数据分析特点
  • 5.1.3 大数据分析流程
  • 5.1.4 数据分析师基本技能和素质
  • *5.1.5 大数据分析难点
  • *5.2 业务理解
  • 5.2.1 什么是业务理解
  • 5.2.2 如何理解业务
  • 5.2.3 数据业务化
  • 5.3 数据认知
  • 5.3.1 数据变换
  • 5.3.2 概率分析
  • *5.3.3 对比分析
  • *5.3.4 细分分析
  • *5.3.5 交叉分析
  • 5.3.6 相关分析
  • 5.4 特征工程
  • 5.4.1 特征工程面临的挑战
  • 5.4.2 特征选择
  • 5.4.3 特征提取
  • 5.4.4 指标设计
  • 5.5 数据建模
  • 5.5.1 模型分类
  • 5.5.2 决策树
  • 5.5.3 关联分析
  • 5.5.4 回归分析
  • 5.5.5 聚类分析
  • *5.5.6 k-邻近分类算法KNN
  • *5.6 通用计算引擎Spark
  • 5.6.1 Spark简介
  • 5.6.2 Spark与Hadoop差异
  • 5.6.3 Spark适用场景
  • 5.6.4 Spark运行模式
  • 5.6.5 Spark常用术语
  • 5.6.6 Spark编程实战——单词统计
  • 5.7 大数据分析引擎Hive
  • 5.7.1 数据仓库概念
  • 5.7.2 传统数据仓库的问题
  • 5.7.3 Hive特征
  • 5.7.4 Hive系统架构
  • 5.7.5 Hive应用案例
  • 习题5
  • 实验报告5 Hive实验
  • 第6章 大数据可视化
  • 6.1 数据可视化基本概念
  • 6.1.1 为什么要数据可视化
  • 6.1.2 什么是数据可视化
  • 6.1.3 数据可视化的作用
  • 6.1.4 数据可视化术语
  • 6.1.5 数据可视化三要素
  • 6.2 常用图形
  • 6.2.1 饼图(扇形图)
  • 6.2.2 堆积柱形图
  • 6.2.3 风玫瑰图
  • 6.2.4 柱状图
  • 6.2.5 直方图
  • 6.2.6 气泡图
  • 6.2.7 散点图矩阵
  • 6.2.8 折线图
  • 6.2.9 面积图
  • 6.2.10 相关系数图
  • 6.2.11 雷达图
  • 6.2.12 箱线图
  • 6.3 数据可视化设计
  • 6.3.1 数据可视化设计原则
  • 6.3.2 数据可视化=数据+设计+故事
  • 6.3.3 数据可视化图形选择建议
  • 6.4 数据可视化工具
  • 6.4.1 基本工具
  • 6.4.2 进阶工具
  • 6.5 基于R语言可视化基础
  • 6.5.1 基本绘图命令
  • 6.5.2 ggplot2绘图
  • 习题6
  • *实验报告6 可视化实验
  • 第7章 大数据应用
  • 7.1 零售行业大数据
  • 7.1.1 沃尔玛的购物篮分析
  • 7.1.2 农夫山泉用海量照片提升销量
  • 7.2 交通大数据
  • 7.2.1 交通拥堵大数据分析
  • 7.2.2 预测起飞时间
  • 7.3 医疗大数据
  • 7.3.1 移动医疗与个人健康
  • 7.3.2 基因测序——精准治癌正在成为现实
  • 习题7
  • 第8章 大数据安全
  • 8.1 大数据安全的重要意义
  • 8.2 大数据面临的挑战
  • 8.3 大数据的安全威胁
  • 8.3.1 大数据基础设施安全威胁
  • 8.3.2 大数据存储安全威胁
  • 8.3.3 大数据的隐私泄露
  • 8.3.4 大数据的其他安全威胁
  • 8.4 大数据与网络攻击监测
  • 8.5 大数据安全分析
  • 8.6 大数据安全标准
  • 8.6.1 基础标准类
  • 8.6.2 平台和技术类
  • 8.6.3 数据安全类
  • 8.6.4 服务安全类
  • 8.6.5 应用安全类
  • 8.7 大数据安全技术
  • 习题8
  • 附录 大数据软件安装
  • A.1 基础环境准备
  • A.2 安装JDK
  • A.3 安装Hadoop
  • A.4 安装Zookeeper
  • A.5 安装HBase
  • A.6 安装Hive
  • 参考文献
展开全部