作品简介

自然语言处理是一门融语言学、计算机科学、数学于一体的学科,比较复杂,学习门槛高,但本书巧妙地避开了晦涩难懂的数学公式和证明,即便没有数学基础,也能零基础入门。本书专注于中文的自然语言处理,以Python及其相关框架为工具,以实战为导向,详细讲解了自然语言处理的各种核心技术、方法论和经典算法。三位作者在人工智能、大数据和算法领域有丰富的积累和经验,是阿里巴巴、前明略数据和七牛云的资深专家。同时,本书也得到了阿里巴巴达摩院高级算法专家、七牛云AI实验室Leader等专家的高度评价和鼎力推荐。全书一共11章,在逻辑上分为2个部分:第一部分(第1、2、11章)主要介绍了自然语言处理所需要了解的基础知识、前置技术、Python科学包、正则表达式以及Solr检索等。第二部分(第5-10章)第3-5章讲解了词法分析相关的技术,包括中文分词技术、词性标注与命名实体识别、关键词提取算法等。第6章讲解了句法分析技术,该部分目前理论研究较多,工程实践中使用门槛相对较高,且效果多是依赖结合业务知识进行规则扩展,因此本书未做深入探讨。第7章讲解了常用的向量化方法,这些方法常用于各种NLP任务的输入。第8章讲解了情感分析相关的概念、场景以及一般做情感分析的流程,情感分析在很多行业都有应用。第9章介绍了机器学习的重要概念,同时重点突出NLP常用的分类算法、聚类算法,还介绍了几个案例。第10章节介绍了NLP中常用的一些深度学习算法,这些方法比较复杂,但是非常实用,需要读者耐心学习。

涂铭:阿里巴巴数据架构师,对大数据、自然语言处理、Python、Java相关技术有深入的研究,积累了丰富的实践经验。曾就职于北京明略数据,是大数据方面的高级咨询顾问。在工业领域参与了设备故障诊断项目,在零售行业参与了精准营销项目。在自然语言处理方面,担任导购机器人项目的架构师,主导开发机器人的语义理解、短文本相似度匹配、上下文理解,以及通过自然语言检索产品库,在项目中构建了NoSQL+文本检索等大数据架构,也同时负责问答对的整理和商品属性的提取,带领NLP团队构建语义解析层。

刘祥:百炼智能自然语言处理专家,主要研究知识图谱、NLG等前沿技术,参与机器自动写作产品的研发与设计。曾在明略数据担当数据技术合伙人兼数据科学家,负责工业、金融等业务领域的数据挖掘工作,在这些领域构建了诸如故障诊断、关联账户分析、新闻推荐、商品推荐等模型。酷爱新技术,活跃于开源社区,是Spark MLlib和Zeppelin的Contributor。

刘树春:七牛云高级算法专家,七牛AI实验室NLP&OCR方向负责人,主要负责七牛NLP以及OCR相关项目的研究与落地。在七牛人工智能实验室期间,参与大量NLP相关项目,例如知识图谱、问答系统、文本摘要、语音相关系统等;同时重点关注NLP与CV的交叉研究领域,主要有视觉问答(VQA),图像标注(Image Caption)等前沿问题。曾在Intel DCSG数据与云计算部门从事机器学习与云平台的融合开发,项目获得IDF大奖。硕士就读于华东师范大学机器学习实验室,在校期间主攻机器学习,机器视觉,图像处理,并在相关国际会议发表多篇SCI/EI论文。

作品目录

  • 序一
  • 序二
  • 前言
  • 第1章 NLP基础
  • 1.1 什么是NLP
  • 1.2 NLP的发展历程
  • 1.3 NLP相关知识的构成
  • 1.4 语料库
  • 1.5 探讨NLP的几个层面
  • 1.6 NLP与人工智能
  • 1.7 本章小结
  • 第2章 NLP前置技术解析
  • 2.1 搭建Python开发环境
  • 2.2 正则表达式在NLP的基本应用
  • 2.3 Numpy使用详解
  • 2.4 本章小结
  • 第3章 中文分词技术
  • 3.1 中文分词简介
  • 3.2 规则分词
  • 3.3 统计分词
  • 3.4 混合分词
  • 3.5 中文分词工具——Jieba
  • 3.6 本章小结
  • 第4章 词性标注与命名实体识别
  • 4.1 词性标注
  • 4.2 命名实体识别
  • 4.3 总结
  • 第5章 关键词提取算法
  • 5.1 关键词提取技术概述
  • 5.2 关键词提取算法TF/IDF算法
  • 5.3 TextRank算法
  • 5.4 LSA/LSI/LDA算法
  • 5.5 实战提取文本关键词
  • 5.6 本章小结
  • 第6章 句法分析
  • 6.1 句法分析概述
  • 6.2 句法分析的数据集与评测方法
  • 6.3 句法分析的常用方法
  • 6.4 使用Stanford Parser的PCFG算法进行句法分析
  • 6.5 本章小结
  • 第7章 文本向量化
  • 7.1 文本向量化概述
  • 7.2 向量化算法word2vec
  • 7.3 向量化算法doc2vec/str2vec
  • 7.4 案例:将网页文本向量化
  • 7.5 本章小结
  • 第8章 情感分析技术
  • 8.1 情感分析的应用
  • 8.2 情感分析的基本方法
  • 8.3 实战电影评论情感分析
  • 8.4 本章小结
  • 第9章 NLP中用到的机器学习算法
  • 9.1 简介
  • 9.2 几种常用的机器学习方法
  • 9.3 分类器方法
  • 9.4 无监督学习的文本聚类
  • 9.5 文本分类实战:中文垃圾邮件分类
  • 9.6 文本聚类实战:用K-means对豆瓣读书数据聚类
  • 9.7 本章小结
  • 第10章 基于深度学习的NLP算法
  • 10.1 深度学习概述
  • 10.2 神经网络模型
  • 10.3 多输出层模型
  • 10.4 反向传播算法
  • 10.5 最优化算法
  • 10.6 丢弃法
  • 10.7 激活函数
  • 10.8 实现BP算法
  • 10.9 词嵌入算法
  • 10.10 训练词向量实践
  • 10.11 朴素Vanilla-RNN
  • 10.12 LSTM网络
  • 10.13 Attention机制
  • 10.14 Seq2Seq模型
  • 10.15 图说模型
  • 10.16 深度学习平台
  • 10.17 实战Seq2Seq问答机器人
  • 10.18 本章小结
  • 第11章 Solr搜索引擎
  • 11.1 全文检索的原理
  • 11.2 Solr简介与部署
  • 11.3 Solr后台管理描述
  • 11.4 配置schema
  • 11.5 Solr管理索引库
  • 11.6 本章小结
展开全部