作品简介

这本书将从一个实用的角度让你从头开始理解和实现NLP解决方案,将从访问内置数据源和创建自己的数据源开始带你踏上一段旅程。到时候将可以编写复杂的NLP解决方案,包括文本规范化、预处理、词性标注、句法解析等。

克里希纳·巴夫萨(KrishnaBhavsar),花了大约10年时间在各行业领域如酒店业、银行业、医疗行业等进行自然语言处理、社交媒体分析和文本挖掘方面的研究。他致力于用不同的NLP语料库如StanfordCoreNLP、IBM的SystemText和BigInsights、GATE和NLTK来解决与文本分析有关的行业问题。克里希纳还致力于分析社交媒体给热门电视节目和流行零售品牌以及产品带来的效应。2010年,他在NAACL上发表了一篇关于情感分析增强技术的论文。近期,他创建了一个NLP管道/工具集并开源以便公众使用。除了学术和科技,克里希纳还热衷于摩托车和足球,空闲时间喜欢旅行和探索。他骑摩托车参加过环印度公路旅行并在东南亚和欧洲大部分国家徒步旅行过。

作品目录

  • 译者序
  • 前言
  • 作者简介
  • 审校者简介
  • 第1章 语料库和WordNet
  • 1.1 引言
  • 1.2 访问内置语料库
  • 1.3 下载外部语料库,加载并访问
  • 1.4 计算布朗语料库中三种不同类别的特殊疑问词
  • 1.5 探讨网络文本和聊天文本的词频分布
  • 1.6 使用WordNet进行词义消歧
  • 1.7 选择两个不同的同义词集,使用WordNet探讨上位词和下位词的概念
  • 1.8 基于WordNet计算名词、动词、形容词和副词的平均多义性
  • 第2章 针对原始文本,获取源数据和规范化
  • 2.1 引言
  • 2.2 字符串操作的重要性
  • 2.3 深入实践字符串操作
  • 2.4 在Python中读取PDF文件
  • 2.5 在Python中读取Word文件
  • 2.6 使用PDF、DOCX和纯文本文件,创建用户自定义的语料库
  • 2.7 读取RSS信息源的内容
  • 2.8 使用BeautifulSoup解析HTML
  • 第3章 预处理
  • 3.1 引言
  • 3.2 分词——学习使用NLTK内置的分词器
  • 3.3 词干提取——学习使用NLTK内置的词干提取器
  • 3.4 词形还原——学习使用NLTK中的WordnetLemmatizer函数
  • 3.5 停用词——学习使用停用词语料库及其应用
  • 3.6 编辑距离——编写计算两个字符串之间编辑距离的算法
  • 3.7 处理两篇短文并提取共有词汇
  • 第4章 正则表达式
  • 4.1 引言
  • 4.2 正则表达式——学习使用*、+和?
  • 4.3 正则表达式——学习使用$和^,以及如何在单词内部(非开头与结尾处)进行模式匹配
  • 4.4 匹配多个字符串和子字符串
  • 4.5 学习创建日期正则表达式和一组字符集合或字符范围
  • 4.6 查找句子中所有长度为5的单词,并进行缩写
  • 4.7 学习编写基于正则表达式的分词器
  • 4.8 学习编写基于正则表达式的词干提取器
  • 第5章 词性标注和文法
  • 5.1 引言
  • 5.2 使用内置的词性标注器
  • 5.3 编写你的词性标注器
  • 5.4 训练你的词性标注器
  • 5.5 学习编写你的文法
  • 5.6 编写基于概率的上下文无关文法
  • 5.7 编写递归的上下文无关文法
  • 第6章 分块、句法分析、依存分析
  • 6.1 引言
  • 6.2 使用内置的分块器
  • 6.3 编写你的简单分块器
  • 6.4 训练分块器
  • 6.5 递归下降句法分析
  • 6.6 shift-reduce句法分析
  • 6.7 依存句法分析和主观依存分析
  • 6.8 线图句法分析
  • 第7章 信息抽取和文本分类
  • 7.1 引言
  • 7.2 使用内置的命名实体识别工具
  • 7.3 创建字典、逆序字典和使用字典
  • 7.4 特征集合选择
  • 7.5 利用分类器分割句子
  • 7.6 文本分类
  • 7.7 利用上下文进行词性标注
  • 第8章 高阶自然语言处理实践
  • 8.1 引言
  • 8.2 创建一条自然语言处理管道
  • 8.3 解决文本相似度问题
  • 8.4 主题识别
  • 8.5 文本摘要
  • 8.6 指代消解
  • 8.7 词义消歧
  • 8.8 情感分析
  • 8.9 高阶情感分析
  • 8.10 创建一个对话助手或聊天机器人
  • 第9章 深度学习在自然语言处理中的应用
  • 9.1 引言
  • 9.2 利用深度神经网络对电子邮件进行分类
  • 9.3 使用一维卷积网络进行IMDB情感分类
  • 9.4 基于双向LSTM的IMDB情感分类模型
  • 9.5 利用词向量实现高维词在二维空间的可视化
  • 第10章 深度学习在自然语言处理中的高级应用
  • 10.1 引言
  • 10.2 基于莎士比亚的著作使用LSTM技术自动生成文本
  • 10.3 基于记忆网络的情景数据问答
  • 10.4 使用循环神经网络LSTM进行语言建模以预测最优词
  • 10.5 使用循环神经网络LSTM构建生成式聊天机器人
展开全部