作品简介

本书介绍了一些主流技术在商业项目中的应用,包括机器学习中的分类、聚类和线性回归,搜索引擎,推荐系统,用户行为跟踪,架构设计的基本理念及常用的消息和缓存机制。在这个过程中,我们有机会实践R、Mahout、Solr、Elasticsearch、Hadoop、HBase、Hive、Flume、Kafka、Storm等系统。如前所述,本书最大的特色就是,从商业需求出发演变到合理的技术方案和实现,因此根据不同的应用场景、不同的数据集合、不同的进阶难度,我们为读者提供了反复温习和加深印象的机会。

本书选取了电子商务的平台,通过分享大量实践才能积累的宝贵经验和重点代码,最大程度地弥补业务需求和技术方案之间的空白。与此同时,针对频繁升级的开源软件,我也采用了2016年年底到2017年年初最新的版本。因此,部分代码甚至可作为中小公司创业起步的参考模板。这有利于技术人员针对不同的业务需求,规划更为合理的技术方案。

作品目录

  • 推荐序
  • 前言
  • 引子
  • 第一篇 支持高效的运营
  • 第1章 方案设计和技术选型:分类
  • 1.1 分类的基本概念
  • 1.2 分类任务的处理流程
  • 1.3 算法:朴素贝叶斯和K最近邻
  • 1.4 分类效果评估
  • 1.5 相关软件:R和Mahout
  • 1.6 案例实践
  • 1.7 更多的思考
  • 第2章 方案设计和技术选型:聚类
  • 2.1 聚类的基本概念
  • 2.2 算法:K均值和层次型聚类
  • 2.3 聚类的效果评估
  • 2.4 案例实践
  • 第3章 方案设计和技术选型:因变量连续的回归分析
  • 3.1 线性回归的基本概念
  • 3.2 案例实践
  • 第二篇 为顾客发现喜欢的商品:基础篇
  • 第4章 方案设计和技术选型:搜索
  • 4.1 搜索引擎的基本概念
  • 4.2 搜索引擎的评估
  • 4.3 为什么不是数据库
  • 4.4 系统框架
  • 4.5 常见的搜索引擎实现
  • 4.6 案例实践
  • 第三篇 为顾客发现喜欢的商品:高级篇
  • 第5章 方案设计和技术选型:NoSQL和搜索的整合
  • 5.1 问题分析
  • 5.2 HBase简介
  • 5.3 结合HBase和搜索引擎
  • 5.4 案例实践
  • 第6章 方案设计和技术选型:查询分类和搜索的整合
  • 6.1 问题分析
  • 6.2 结合分类器和搜索引擎
  • 6.3 案例实践
  • 第7章 方案设计和技术选型:个性化搜索
  • 7.1 问题分析
  • 7.2 结合用户画像和搜索引擎
  • 7.3 案例实践
  • 第8章 方案设计和技术选型:搜索分片
  • 8.1 问题分析
  • 8.2 利用搜索的分片机制
  • 8.3 案例实践
  • 第9章 方案设计和技术选型:搜索提示
  • 9.1 问题分析
  • 9.2 案例实践:基础方案
  • 9.3 改进方案
  • 9.4 案例实践:改进方案
  • 第10章 方案设计和技术选型:推荐
  • 10.1 推荐系统的基本概念
  • 10.2 推荐的核心要素
  • 10.3 推荐系统的分类
  • 10.4 混合模型
  • 10.5 系统架构
  • 10.6 Mahout中的推荐算法
  • 10.7 电商常见的推荐系统方案
  • 10.8 案例实践
  • 第四篇 获取数据,跟踪效果
  • 第11章 方案设计和技术选型:行为跟踪
  • 11.1 基本概念
  • 11.2 使用谷歌分析
  • 11.3 自行设计之Flume、HDFS和Hive的整合
  • 11.4 自行设计之Flume、Kafka和Storm的整合
  • 11.5 案例实践
  • 11.6 更多的思考
  • 后记
展开全部