作品简介

本书由Spark及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具——Spark,它带领读者快速掌握用Spark收集、计算、简化和保存海量数据的方法,学会交互、迭代和增量式分析,解决分区、数据本地化和自定义序列化等问题。

Holden Karau是Databricks的软件开发工程师,活跃于开源社区。她还著有《Spark快速数据处理》。

Andy Konwinski是Databricks联合创始人,Apache Spark项目技术专家,还是Apache Mesos项目的联合发起人。

Patrick Wendell是Databricks联合创始人,也是Apache Spark项目技术专家。他还负责维护Spark核心引擎的几个子系统。

Matei Zaharia是Databricks的CTO,同时也是Apache Spark项目发起人以及Apache基金会副主席。

作品目录

  • 推荐序
  • 译者序
  • 前言
  • 第1章 Spark 数据分析导论
  • 1.1 Spark是什么
  • 1.2 一个大一统的软件栈
  • 1.3 Spark的用户和用途
  • 1.4 Spark简史
  • 1.5 Spark的版本和发布
  • 1.6 Spark的存储层次
  • 第2章 Spark 下载与入门
  • 2.1 下载Spark
  • 2.2 Spark中Python和Scala的shell
  • 2.3 Spark核心概念简介
  • 2.4 独立应用
  • 2.5 总结
  • 第3章 RDD 编程
  • 3.1 RDD基础
  • 3.2 创建RDD
  • 3.3 RDD操作
  • 3.4 向Spark传递函数
  • 3.5 常见的转化操作和行动操作
  • 3.6 持久化(缓存)
  • 3.7 总结
  • 第4章 键值对操作
  • 4.1 动机
  • 4.2 创建Pair RDD
  • 4.3 Pair RDD的转化操作
  • 4.4 Pair RDD的行动操作
  • 4.5 数据分区(进阶)
  • 4.6 总结
  • 第5章 数据读取与保存
  • 5.1 动机
  • 5.2 文件格式
  • 5.3 文件系统
  • 5.4 Spark SQL中的结构化数据
  • 5.5 数据库
  • 5.6 总结
  • 第6章 Spark 编程进阶
  • 6.1 简介
  • 6.2 累加器
  • 6.3 广播变量
  • 6.4 基于分区进行操作
  • 6.5 与外部程序间的管道
  • 6.6 数值RDD的操作
  • 6.7 总结
  • 第7章 在集群上运行 Spark
  • 7.1 简介
  • 7.2 Spark运行时架构
  • 7.3 使用spark-submit部署应用
  • 7.4 打包代码与依赖
  • 7.5 Spark应用内与应用间调度
  • 7.6 集群管理器
  • 7.7 选择合适的集群管理器
  • 7.8 总结
  • 第8章 Spark 调优与调试
  • 8.1 使用SparkConf配置Spark
  • 8.2 Spark执行的组成部分:作业、任务和步骤
  • 8.3 查找信息
  • 8.4 关键性能考量
  • 8.5 总结
  • 第9章 Spark SQL
  • 9.1 连接Spark SQL
  • 9.2 在应用中使用Spark SQL
  • 9.3 读取和存储数据
  • 9.4 JDBC/ODBC服务器
  • 9.5 用户自定义函数
  • 9.6 Spark SQL性能
  • 9.7 总结
  • 第10章 Spark Streaming
  • 10.1 一个简单的例子
  • 10.2 架构与抽象
  • 10.3 转化操作
  • 10.4 输出操作
  • 10.5 输入源
  • 10.6 24/7不间断运行
  • 10.7 Streaming用户界面
  • 10.8 性能考量
  • 10.9 总结
  • 第11章 基于MLlib的机器学习
  • 11.1 概述
  • 11.2 系统要求
  • 11.3 机器学习基础
  • 11.4 数据类型
  • 11.5 算法
  • 11.6 一些提示与性能考量
  • 11.7 流水线API
  • 11.8 总结
展开全部