作品简介

这是一本将数据科学三要素——商业理解、量化模型、数据技术全面打通的实战性著作,是来自腾讯、滴滴、快手等一线互联网企业的数据科学家、数据分析师和算法工程师的经验总结,得到了SQLFlow创始人以及腾讯、网易、快手、贝壳找房、谷歌等企业的专家一致好评和推荐。

全书三个部分,内容相对独立,既能帮助初学者建立知识体系,又能帮助从业者解决商业中的实际问题,还能帮助有经验的专家快速掌握数据科学的Z新技术和发展动向。内容围绕非实验环境下的观测数据的分析、实验的设计和分析、自助式数据科学平台3大主题展开,涉及统计学、经济学、机器学习、实验科学等多个领域,包含大量常用的数据科学方法、简洁的代码实现和经典的实战案例。

第1部分(第1~6章)观测数据的分析技术

讲解了非实验环境下不同观测数据分析场景所对应的分析框架、原理及实际操作,包括消费者选择偏好分析、消费者在时间维度上的行为分析、基于机器学习的用户生命周期价值预测、基于可解释模型技术的商业场景挖掘、基于矩阵分解技术的用户行为规律发现与挖掘,以及在不能进行实验分析时如何更科学地进行全量评估等内容。

第二部分(第7~9章)实验设计和分析技术

从A/B实验的基本原理出发,深入浅出地介绍了各种商业场景下进行实验设计需要参考的原则和运用的方法,尤其是在有样本量约束条件下提升实验效能的方法及商业场景限制导致的非传统实验设计。

第三部分(第10~12章)自助式数据科学平台SQLFlow

针对性的讲解了开源的工程化的自助式数据科学平台SQLFlow,并通过系统配置、黑盒模型的解读器应用、聚类分析场景等案例帮助读者快速了解这一面向未来的数据科学技术。

谢梁,经济学博士,腾讯QQ浏览器副总经理、QQ浏览器数据负责人。CCF数据科学专委会创始委员,入选第一财经数据科学50人,清华大学商学院及香港大学商学院商业分析硕士项目指导嘉宾。曾任滴滴杰出数据科学家、美国微软云存储核心工程部首席数据科学家。

缪莹莹,浙江大学硕士,曾任滴滴首席数据科学家,CCF数据科学专委会委员。拥有十余项国家发明专利及国际发明专利,具有丰富的数据仓库建设、数据挖掘建模、实验科学与战略分析的经验。带领团队用数据的方式驱动从0到1的初创形态的业务和成熟形态业务的增长,善于发现业务机会和风险,给业务带来巨大价值。

高梓尧,快手数据分析总监,长期在美国硅谷和中国多家互联网科技公司从事用户分析、实验设计等相关工作。曾带领滴滴数据科学团队与蚂蚁金服联合开源共建一站式机器学习工具SQLFlow。拥有多项国家发明专利。清华大学商学院及哥伦比亚大学商学院商业分析硕士项目指导嘉宾、泛华统计协会演讲嘉宾。

王子玲,上海交通大学计算数学硕士,曾任滴滴高级数据科学家、高级模型专家、高级风控专家。先后任职于日企MTI、人人网、滴滴出行、爱奇艺等知名互联网企业,在网约车出行、互联网金融、在线音乐、短视频、网游等领域积累了丰富的大数据分析、策略、挖掘、建模、研究、应用经验。负责过两段公司级重点项目从0到1增长的整体数据驱动体系设计及落地。拥有平台智能定价及优化算法系统等十余项国家发明专利及国际发明专利。

周银河,现任腾讯数据科学家,曾任滴滴数据科学家,清华大学–哥伦比亚大学商业分析硕士项目指导嘉宾。拥有丰富的数据分析、统计建模及实验设计经验。

丁芬,曾任滴滴数据科学家,曾就职于美团、滴滴等国内知名互联网公司,工作经历涉及市场咨询、信贷风控、网约车交易及信息流等领域。

苏涛,物理学博士,美国生物物理学会会员。曾任中国科学院研究助理,研究量子计算和主动流体。后任乔治华盛顿大学计算物理研究员,从事细胞模拟、生物领域机器学习、高性能计算等方向的研究。2017年进入互联网行业,先后在Elex和滴滴进行数学模型、算法和数据科学方向的研究,熟悉复杂网络、流形几何嵌入、时频分析以及相关的机器学习和优化方法。

王禹,曾任滴滴高级数据分析师,主要负责滴滴分单引擎和调度引擎的实验设计、评估、数据分析以及成交率等核心指标的预测、异常诊断归因等工作。现任某短视频科技企业算法工程师,主要负责LBS定位、POI挖掘等相关场景的策略算法开发。

吴君涵,资深数据分析师,擅长用户增长分析和体验量化建模。具有丰富的大数据挖掘建模、产出数据驱动洞察并通过洞察影响决策的实战经验。

杨骁捷,高级数据分析师,擅长双边平台的供需匹配效率分析,在出行、电商等不同业务领域中灵活运用因果推断相关知识,科学评估复杂场景下的策略收益。

刘冲,曾任滴滴高级数据分析师,主要负责流量运营的实验设计、评估、数据分析以及优化司机行为和提高司机收入等相关分析,现任某短视频科技企业数据分析师。

王玉玺,中国人民大学商学院博士,美国密歇根大学访问学者,滴滴数据科学部研究员,主要研究方向为定价策略优化、消费者行为分析等。参与多项国家自然科学基金及社会科学基金研究项目,在Expert System、Information Systems Research、《管理评论》等期刊发表多篇论文。

刘未名,滴滴数据科学家,拥有金融、互联网等领域的数据分析经验,擅长利用实验、量化模型解决业务问题,多次参与公司级重点项目的数据分析,帮助公司搭建数据驱动工业化体系,拥有国内、国际多项发明专利。

杨凯迪,现任快手数据分析部数据科学家。长期就职于国内头部互联网企业,对于出行定价补贴以及短视频行业用户画像挖掘、策略分析等有丰富经验。工作期间累计发表三篇国家发明专利论文。

李依诺,腾讯数据科学家,本硕先后毕业于美国印第安纳大学数学专业和美国乔治华盛顿大学生物统计学专业。在在线视频、网约车、网络游戏领域积累了丰富的数据科学实战经验,从0到1参与过腾讯、滴滴的实验工业化进程。

陈祥,资深算法工程师,硕士毕业于爱丁堡大学计算机科学专业。先后从事异常检测、强化学习、自然语言处理、领域知识图谱建设及应用等相关工作。曾就职于爱奇艺、滴滴。SQLFlow贡献者之一。现从事用户画像、广告系统和推荐相关工作。

朱文静,高级数据分析师,主要从事基于业务数据进行的分析、建模、挖掘等工作。SQLFlow项目重要成员之一,SQLFlow开源社区贡献者,参与贡献了多个SQLFlow模型,其中包括可解释黑盒模型、深度学习聚类模型、时间序列模型等。

作品目录

  • 作者简介
  • 序一
  • 序二
  • 前言
  • 第一部分 观测数据的分析技术
  • 第1章 如何分析用户的选择
  • 1.1 深入理解选择行为
  • 1.2 DCM详述
  • 1.3 DCM模型的Python实践
  • 1.4 本章小结
  • 第2章 与时间相关的行为分析
  • 2.1 生存分析与二手车定价案例
  • 2.2 生存分析的理论框架
  • 2.3 生存分析在二手车定价案例中的应用
  • 2.4 本章小结
  • 第3章 洞察用户长期价值: 基于神经网络的LTV建模
  • 3.1 用户长期价值的概念和商业应用
  • 3.2 基于Keras的LTV模型实践
  • 3.3 本章小结
  • 第4章 使用体系化分析方法进行场景挖掘
  • 4.1 经验化分析与体系化分析
  • 4.2 体系化分析常用工具
  • 4.3 场景挖掘分析的应用与实现
  • 4.4 本章小结
  • 第5章 行为规律的发现与挖掘
  • 5.1 对有序数据的规律分析
  • 5.2 SVD聚类建模Python实战
  • 5.3 对无序稀疏数据的规律分析
  • 5.4 本章小结
  • 第6章 对观测到的事件进行因果推断
  • 6.1 使用全量评估分析已发生的事件
  • 6.2 全量评估的主要方法
  • 6.3 全量评估方法的应用
  • 6.4 本章小结
  • 第二部分 实验设计和分析技术
  • 第7章 如何比较两个策略的效果
  • 7.1 正确推断因果关系
  • 7.2 运用A/B实验进行策略比较
  • 7.3 A/B实验应用步骤
  • 7.4 A/B实验案例
  • 7.5 本章小结
  • 第8章 提高实验效能
  • 8.1 控制实验指标方差的必要性和手段
  • 8.2 用随机区组设计控制实验指标方差
  • 8.3 随机区组实验应用步骤
  • 8.4 随机区组实验案例介绍
  • 8.5 随机区组实验的常见问题
  • 8.6 本章小结
  • 第9章 特殊场景下的实验设计和分析方法
  • 9.1 解决分流实验对象之间的干扰
  • 9.2 Switchback实验和评估方法
  • 9.3 交叉实验
  • 9.4 强约束条件下的实验方法
  • 9.5 本章小结
  • 第三部分 自助式数据科学平台SQLFlow
  • 第10章 SQLFlow
  • 10.1 SQLFlow简介
  • 10.2 设置SQLFlow运行环境
  • 10.3 向SQLFlow提交分析模型
  • 10.4 本章小结
  • 第11章 机器学习模型可解释性
  • 11.1 模型的可解释性
  • 11.2 常见的可解释模型
  • 11.3 黑盒模型的解释性
  • 11.4 本章小结
  • 第12章 基于LSTM-Autoencoder的无监督聚类模型
  • 12.1 聚类分析的广泛应用
  • 12.2 聚类模型的应用案例
  • 12.3 SQLFlow中基于深度学习的聚类模型
  • 12.4 本章小结
展开全部