作品简介

本书脱胎于哥伦比亚大学“数据科学导论”课程的教学讲义,它界定了数据科学的研究范畴,是一本注重人文精神,多角度、全方位、深入介 绍数据科学的实用指南,堪称大数据时代的实战宝典。本书旨在让读者能够举一反三地解决重要问题,内容包括:数据科学及工作流程、统计模型与机器学习算法、信息提取与统计变量创建、数据可视化与社交网络、预测模型与因果分析、数据预处理与工程方法。另外,本书还将带领读者展望数据科学未来的发展。

作者简介:

Rachel Schutt

美国新闻集团旗下数据科学部门高级副总裁、哥伦比亚大学统计系兼职教授、约翰逊实验室高级研究科学家,同时也是哥伦比亚大学数据科学及工程研究所教育委员会的发起人之一。她曾在谷歌研究院工作数年,负责设计算法原型并通过建模理解用户行为。

Cathy O'Neil

约翰逊实验室高级数据科学家、哈佛大学数学博士、麻省理工学院数学系博士后、巴纳德学院教授,曾发 表过大量算术代数几何方面的论文。他曾在著名的全球投资管理公司D.E. Shaw担任对冲基金金融师,后加入专门评估银行和对冲基金风险的软件公司RiskMetrics,个人博客:mathbabe.org。

译者简介:

冯凌秉

澳 大利亚国立大学统计学博士,本科和研究生分别毕业于中南财经政法大学和中国人民大学。现在,他任职于江西财经大学金融管理国际研究院,任讲师、硕士生导师,研究方向为应用统计与金融计量。

王群锋

毕业于西安电子科技大学,现任职于IBM西安研发中心,从事下一代统计预测软件的开发运维工作。

作品目录

  • O'Reilly Media, Inc.介绍
  • 业界评论
  • 作者介绍
  • 关于封面图
  • 前言
  • 初衷
  • 课程的起源
  • 本书的起源
  • 本书内容
  • 组织结构
  • 阅读须知
  • 书中的代码
  • 目标读者
  • 基础知识要求
  • 补充阅读
  • 数学
  • 编程
  • 数据分析与统计推断
  • 人工智能和机器学习
  • 实验设计
  • 可视化
  • 关于本书其他贡献者
  • 使用代码示例
  • Safari(^{®}) Books Online
  • 联系我们
  • 致谢
  • 第 1 章 简介:什么是数据科学
  • 1.1 大数据和数据科学的喧嚣
  • 1.2 冲出迷雾
  • 1.3 为什么是现在
  • 数据化
  • 1.4 数据科学的现状和历史
  • 数据科学的职位
  • 1.5 数据科学的知识结构
  • 1.6 思维实验: 元定义
  • 1.7 什么是数据科学家
  • 1.7.1 学术界对数据科学家的定义
  • 1.7.2 工业界对数据科学家的定义
  • 第 2 章 统计推断、探索性数据分析和数据科学工作流程
  • 2.1 大数据时代的统计学思考
  • 2.1.1 统计推断
  • 2.1.2 总体和样本
  • 2.1.3 大数据的总体和样本
  • 2.1.4 大数据意味着大胆的假设
  • 2.1.5 建模
  • 2.2 探索性数据分析
  • 2.2.1 探索性数据分析的哲学
  • 2.2.2 练习:探索性数据分析
  • 示例代码
  • 2.3 数据科学的工作流程
  • 数据科学家在数据科学工作流程中的角色
  • 2.4 思维实验:如何模拟混沌
  • 2.5 案例学习:RealDirect
  • 2.5.1 RealDirect是如何赚钱的
  • 2.5.2 练一练:RealDirect公司的数据策略
  • 示例R代码
  • 第 3 章 算法
  • 3.1 机器学习算法
  • 3.2 三大基本算法
  • 3.2.1 线性回归模型
  • 小贴士
  • 模型拟合
  • 最小二乘模型 的延伸
  • 增添关于模型误差项的假设
  • 模型评估标准
  • 其他类型的模型误差测度
  • 回顾一下
  • 练习
  • 3.2.2 k近邻模型(k-NN)
  • 信用评分实例
  • 相似性/距离测度
  • 训练和测试数据集
  • 选择一个模型评价标准
  • 小结
  • k的选择
  • 模型 有哪些假设
  • 3.2.3 k均值算法
  • 二维的问题
  • 3.3 练习:机器学习算法基础
  • 答案
  • 示例R代码:房地产数据的线性回归模型
  • 示例R代码:房地产数据的k近邻模型
  • 3.4 总结
  • 3.5 思维实验:关于统计学家的自动化
  • 第 4 章 垃圾邮件过滤 器、朴素贝叶斯与数据清理
  • 4.1 思维实验:从实例中学习
  • 4.1.1 线性回归为何不适用
  • 4.1.2 k近邻效果如何
  • 4.2 朴素贝叶斯模型
  • 4.2.1 贝叶斯法则
  • 4.2.2 个别单词的过滤器
  • 4.2.3 直通朴素贝叶斯
  • 4.3 拉普拉斯平滑法
  • 4.4  对比朴素贝叶斯和k 近邻
  • 4.5 Bash代码示例
  • 4.6 网页抓取:API和其他工具
  • 4.7 Jake的练习题:文章分类问题中的朴素贝叶斯模型
  • 使用《纽约时报》的API: R代码示例
  • 第 5 章 逻辑回归
  • 5.1 思维实验
  • 5.2 分类器
  • 5.2.1 运行 时间
  • 5.2.2 你自己
  • 5.2.3 模型的可解释性
  • 5.2.4 可扩展性
  • 5.3 逻辑回归:一个来自M6D的真实案例研究
  • 5.3.1 点击模型
  • 5.3.2 模型背后
  • 5.3.3 
  • α和β 的参数估计
  • 5.3.4 牛顿法
  • 5.3.5 随机梯度下降法
  • 5.3.6 操 练
  • 5.3.7 模型评价
  • 5.4 练习题
  • 示例R代码
  • 第 6 章 时间戳数据与金融建模
  • 6.1 Kyle Teague与GetGlue公司
  • 6.2 时间戳
  • 6.2.1 探索性数据分析(EDA)
  • 6.2.2 指标和新变量
  • 6.2.3 下一步怎么做
  • 6.3 轮到Cathy O'Neill了
  • 6.4 思维实验
  • 6.5 金融建模
  • 6.5.1 样本期内外以及因果关系
  • 6.5.2 金融数据处理
  • 6.5.3 对数收益率
  • 6.5.4 实例:标准普尔指数
  • 6.5.5 如何衡量波动率
  • 6.5.6 指数平滑法
  • 6.5.7 金融模型的反馈
  • 6.5.8 聊聊回归模型
  • 6.5.9 先验信息量
  • 6.5.10 一个小例子
  • 6.6 练习:GetGlue提供的时间戳数据
  • 练习:金融建模
  • 第 7 章 从数据到结论
  • 7.1 William Cukierski
  • 7.1.1 背景介绍:数据科学竞赛
  • 7.1.2 背景介绍:众包模式
  • 7.2 Kaggle模式
  • 7.2.1 Kaggle的参赛者
  • 7.2.2 Kaggle的客户
  • 7.3 思维实验:关于作业自动评分系统
  • 7.4 特征选择
  • 7.4.1 例子:留住用户
  • 7.4.2 过滤型
  • 7.4.3 包装型
  • 什么算法合适
  • 什么选择标准合适
  • 实际操作
  • 7.4.4 决策树与嵌入 型变量选择
  • 7.4.5 熵
  • 7.4.6 决策树算法
  • 7.4.7 如何在决策树模型中处理连续性变量
  • 7.4.8 随机森林
  • 7.4.9 用户黏性:模型的预测能力与可解释性
  • 7.5 David Huffaker:谷歌社会学研究的新方法
  • 7.5.1 从描述性统计到预测模型
  • 7.5.2 谷歌的社交研究
  • 7.5.3 隐私保护
  • 7.5.4 思维实验:如何消除用户的顾虑
  • 第 8 章 构建面向大量用户的推荐引擎
  • 8.1 一个真实的推荐引擎
  • 8.1.1 最近邻算法回顾
  • 8.1.2 最近邻模型的已知问题
  • 8.1.3 超越近邻模型:基于机器学习的分类模型
  • 8.1.4 高维度问题
  • 8.1.5 奇异值分解(SVD)
  • 8.1.6 关于SVD的重要特性
  • 8.1.7 主成分分析(PCA)
  • 定理:隐含变量是互不相关的
  • 8.1.8 交替最小二乘法
  • 没有证明过程的定理:如果先验信息量足够,那么刚才的迭代算法一定 收敛
  • 8.1.9 固定矩阵V,更新矩阵U
  • 8.1.10 关于这些算法的一点思考
  • 8.2 思维实验:如何过滤模型中的泡沫
  • 8.3 练习:搭建自己的推荐系统
  • Python示例代码
  • 第 9 章 数据可视化与欺诈侦测
  • 9.1 数据可视化的历史
  • 9.1.1 Gabriel Tarde
  • 9.1.2 Mark的思维实验
  • 9.2 到底什么是数据科学
  • 9.2.1 Processing
  • 9.2.2 Franco Moretti
  • 9.3 一个数据可视化的方案实例
  • 9.4 Mark的数据可视化项目
  • 9.4.1 《纽约时报》大厅里的可视化:Moveable Type
  • 9.4.2 屏幕上的生命:Cascade可视化项目
  • 9.4.3 Cronkite广场项目
  • 9.4.4 eBay与图书网购
  • 9.4.5 公共剧场里的“莎士比亚机”
  • 9.4.6 这些展览的目的是什么
  • 9.5 数据科学和风险
  • 9.5.1 关于Square公司
  • 9.5.2 支付风险
  • 机器学习在可疑支付行为侦测中的应用
  • 9.5.3 模型效果的评估问题
  • 定义误差指标
  • 定义标签
  • 特征选择与模型学习过程中的诸多挑战
  • 9.5.4 建模小贴士
  • 程序的可用性与可读性
  • 找到小伙伴
  • 将机器学习模型产品化
  • 9.6 数据可视化在Square
  • 9.7 Ian的思维 实验
  • 9.8 关于数据可视化
  • 数据可视化练习作业
  • 第 10 章 社交网络与数据新闻学
  • 10.1 Morning Analytics与社交网络
  • 案例-属性数据与社交网络数据
  • 10.2 社交网络分析
  • 10.3 关于社交网络分析的相关术语
  • 10.3.1 如何衡量向心性
  • 10.3.2 使用哪种向心性测度
  • 10.4 思维实验
  • 10.5 Morningside Analytics
  • 可视化与中观视角
  • 10.6 从统计学的角度看社交网络分析
  • 10.6.1 网络的表示方法与特征值向心度
  • 10.6.2 随机网络的第一个例子:Erdos-Renyi模型
  • 10.6.3  随机网络的第二个例子:指数随机网络图模型
  • ERGM的推断问题
  • 关于随机图模型的其他例子:隐空间模型与小世界模型
  • 10.7 数据新闻学
  • 10.7.1 关于数据新闻学的历史回顾
  • 10.7.2 数据新闻报告的写作:来自专家的建议
  • 第 11 章 因果关系研究
  • 11.1 相关性并不代表因果关系
  • 11.1.1 对因果关系提问
  • 11.1.2 干扰因子:一个关于在线约会网站的例子
  • 11.2 OK Cupid的发现
  • 11.3 黄金准则:随机化临床实验
  • 11.4 A/B 测试
  • 11.5 退一步求其次:关于观察性研究
  • 11.5.1 辛普森悖论
  • 11.5.2 鲁宾因果关系模型
  • 11.5.3 因果关系的可视化
  • 11.5.4 定义:因果关系
  • 11.6 三个小建议
  • 第 12 章 流行病学
  • 12.1 Madigan的学术背景
  • 12.2 思维实验
  • 12.3 统计学在现代
  • 12.4 医学文献与观察性研究
  • 12.5 分层法不解决干扰因子的问题
  • 人们在实证中到底如何处理干扰因子的问题
  • 12.6 就没有更好的办法吗
  • 12.7 研究性实验(OMOP)
  • 12.8 最后的思维实验
  • 第 13 章 从竞赛中学到的:数据泄漏和模型评价
  • 13.1 Claudia作为数据科学家的知识结构
  • 13.1.1 首席数据科学家的生活
  • 13.1.2 作为一名女数据科学家
  • 13.2 数据挖掘竞赛
  • 13.3 如何成为出色的建模者
  • 13.4 数据泄漏
  • 13.4.1 市场预测
  • 13.4.2 亚马逊案例学习:出手阔绰的顾客
  • 13.4.3 珠宝抽样问题
  • 13.4.4  IBM客户锁定
  • 13.4.5 乳腺癌检测
  • 13.4.6 预测肺炎
  • 13.5 如何避免数据泄漏
  • 13.6 模型评价
  • 13.6.1 准确度重要吗
  • 13.6.2 概率的重要性,不是非0即1
  • 13.7 如何选择算法
  • 13.8 最后一个例子
  • 13.9 临别感言
  • 第 14 章  数据工程:MapReduce、Pregel、Hadoop
  • 14.1 关于David Crawshaw
  • 14.2 思维实验
  • 14.3 MapReduce
  • 14.4 单词频率问题
  • 初涉MapReduce
  • 14.5 其他MapReduce案例
  • MapReduce不能做什么
  • 14.6 Pregel
  • 14.7 关于Josh Wills
  • 14.8 思维实验
  • 14.9 给数据科学家的话
  • 14.9.1 数据丰富和数据匮乏
  • 14.9.2 设计模型
  • 认清分歧
  • 14.10 算算Hadoop的经济账
  • 14.10.1 Hadoop简介
  • 14.10.2 Cloudera
  • 14.11 Josh的工作流程
  • 14.12 如何开始使用Hadoop
  • 第 15 章 听听学生们怎么说
  • 15.1 重在过程
  • 15.2 不再简单
  • 15.3 援助之手
  • 15.4 殊途同归
  • 15.5 逢山开路,遇水架桥
  • 15.6 作品展示
  • 第 16 章 下一代数据科学家、自大狂和职业道德
  • 16.1 前面都讲了些什么
  • 16.2 什么是 数据科学(再问一次)
  • 16.3 谁是下一代的数据科学家
  • 16.3.1 成为解决问题的人
  • 16.3.2 培养软技能
  • 16.3.3 成为提问者
  • 16.4 做一个有道德感的数据科学家
  • 16.5 对于职业生涯的建议
  • 1. 你选择什么样的生活
  • 2. 你有哪些局限
  • 看完了
展开全部