作品简介

机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或模式,成为各行业求生存、谋发展的决定性手段,这使得这一过去为分析师和数学家所专属的研究领域越来越为人们所瞩目。

本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算法等。第三部分则重点介绍无监督学习及其一些主要算法:k均值聚类算法、Apriori算法、FP-Growth算法。第四部分介绍了机器学习算法的一些附属工具。

全书通过精心编排的实例,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如何处理统计数据,进行数据分析及可视化。通过各种实例,读者可从中学会机器学习的核心算法,并能将其运用于一些策略性任务中,如分类、预测、推荐。另外,还可用它们来实现一些更高级的功能,如汇总和简化等。

Peter Harrington,拥有电气工程学士和硕士学位,他曾经在美国加州和中国的英特尔公司工作7年。Peter拥有5项美国专利,在三种学术期刊上发表过文章。他现在是Zillabyte公司的首席科学家,在加入该公司之前,他曾担任2年的机器学习软件顾问。Peter在业余时间还参加编程竞赛和建造3D打印机。

作品目录

  • 献词
  • 译者序
  • 前言
  • 致谢
  • 关于本书
  • 读者对象
  • 数据挖掘十大算法
  • 本书结构
  • 代码约定和下载
  • 作者在线
  • 关于作者
  • 关于封面
  • 第一部分 分类
  • 第1章 机器学习基础
  • 1.1 何谓机器学习
  • 1.2 关键术语
  • 1.3 机器学习的主要任务
  • 1.4 如何选择合适的算法
  • 1.5 开发机器学习应用程序的步骤
  • 1.6 Python语言的优势
  • 1.7 NumPy函数库基础
  • 1.8 本章小结
  • 第2章 k-近邻算法
  • 2.1 k-近邻算法概述
  • 2.2 示例:使用k近邻算法改进约会网站的配对效果
  • 2.3 示例:手写识别系统
  • 2.4 本章小结
  • 第3章 决策树
  • 3.1 决策树的构造
  • 3.2 在Python中使用Matplotlib注解绘制树形图
  • 3.3 测试和存储分类器
  • 3.4 示例:使用决策树预测隐形眼镜类型
  • 3.5 本章小结
  • 第4章 基于概率论的分类方法:朴素贝叶斯
  • 4.1 基于贝叶斯决策理论的分类方法
  • 4.2 条件概率
  • 4.3 使用条件概率来分类
  • 4.4 使用朴素贝叶斯进行文档分类
  • 4.5 使用Python进行文本分类
  • 4.6 示例:使用朴素贝叶斯过滤垃圾邮件
  • 4.7 示例:使用朴素贝叶斯分类器从个人广告中获取区域倾向
  • 4.8 本章小结
  • 第5章 Logistic回归
  • 5.1 基于Logistic回归和Sigmoid函数的分类
  • 5.2 基于最优化方法的最佳回归系数确定
  • 5.3 示例:从疝气病症预测病马的死亡率
  • 5.4 本章小结
  • 第6章 支持向量机
  • 6.1 基于最大间隔分隔数据
  • 6.2 寻找最大间隔
  • 6.3 SMO高效优化算法
  • 6.4 利用完整Platt SMO算法加速优化
  • 6.5 在复杂数据上应用核函数
  • 6.6 示例:手写识别问题回顾
  • 6.7 本章小结
  • 第7章 利用AdaBoost元算法提高分类性能
  • 7.1 基于数据集多重抽样的分类器
  • 7.2 训练算法:基于错误提升分类器的性能
  • 7.3 基于单层决策树构建弱分类器
  • 7.4 完整AdaBoost算法的实现
  • 7.5 测试算法:基于AdaBoost的分类
  • 7.6 示例:在一个难数据集上应用AdaBoost
  • 7.7 非均衡分类问题
  • 7.8 本章小结
  • 第二部分 利用回归预测数值型数据
  • 第8章 预测数值型数据:回归
  • 8.1 用线性回归找到最佳拟合直线
  • 8.2 局部加权线性回归
  • 8.3 示例:预测鲍鱼的年龄
  • 8.4 缩减系数来“理解”数据
  • 8.5 权衡偏差与方差
  • 8.6 示例:预测乐高玩具套装的价格
  • 8.7 本章小结
  • 第9章 树回归
  • 9.1 复杂数据的局部性建模
  • 9.2 连续和离散型特征的树的构建
  • 9.3 将CART算法用于回归
  • 9.4 树剪枝
  • 9.5 模型树
  • 9.6 示例:树回归与标准回归的比较
  • 9.7 使用Python的Tkinter库创建GUI
  • 9.8 本章小结
  • 第三部分 无监督学习
  • 第10章 利用K-均值聚类算法对未标注数据分组
  • 10.1 k均值聚类算法
  • 10.2 使用后处理来提高聚类性能
  • 10.3 二分k均值算法
  • 10.4 示例:对地图上的点进行聚类
  • 10.5 本章小结
  • 第11章 使用Apriori算法进行关联分析
  • 11.1 关联分析
  • 11.2 Apriori原理
  • 11.3 使用Apriori算法来发现频繁集
  • 11.4 从频繁项集中挖掘关联规则
  • 11.5 示例:发现国会投票中的模式
  • 11.6 示例:发现毒蘑菇的相似特征
  • 11.7 本章小结
  • 第12章 使用FP-growth算法来高效发现频繁项集
  • 12.1 FP树:用于编码数据集的有效方式
  • 12.2 构建FP树
  • 12.3 从一棵FP树中挖掘频繁项集
  • 12.4 示例:在Twitter源中发现一些共现词
  • 12.5 示例:从新闻网站点击流中挖掘
  • 12.6 本章小结
  • 第四部分 其他工具
  • 第13章 利用PCA来简化数据
  • 13.1 降维技术
  • 13.2 PCA
  • 13.3 示例:利用PCA对半导体制造数据降维
  • 13.4 本章小结
  • 第14章 利用SVD简化数据
  • 14.1 SVD的应用
  • 14.2 矩阵分解
  • 14.3 利用Python实现SVD
  • 14.4 基于协同过滤的推荐引擎
  • 14.5 示例:餐馆菜肴推荐引擎
  • 14.6 示例:基于SVD的图像压缩
  • 14.7 本章小结
  • 第15章 大数据与MapReduce
  • 15.1 MapReduce:分布式计算的框架
  • 图 15-1 MapReduce框架的示意图。在该集群中有3台双核机器,如果机器0失效,作业仍可以正常继续
  • 15.2 Hadoop流
  • 15.3 在Amazon网络服务上运行Hadoop程序
  • 15.4 MapReduce上的机器学习
  • 15.5 在Python中使用mrjob来自动化MapReduce
  • 15.6 示例:分布式SVM的Pegasos算法
  • 15.7 你真的需要MapReduce吗?
  • 15.8 本章小结
  • 附录A Python入门
  • A.1 Python安装
  • A.2 Python入门
  • A.3 NumPy快速入门
  • A.4 Beautiful Soup包
  • A.5 Mrjob
  • A.6 Vote Smart
  • A.7 Python-Twitter
  • 附录B 线性代数
  • B.1 矩阵
  • B.2 矩阵求逆
  • B.3 矩阵范数
  • B.4 矩阵求导
  • 附录C 概率论复习
  • C.1 概率论简介
  • C.2 联合概率
  • C.3 概率的基本准则
  • 附录D 资源
展开全部