作品简介

本书介绍了网络爬虫开发中的关键问题与Java实现。主要包括从互联网获取信息与提取信息和对Web信息挖掘等内容。本书在介绍基本原理的同时注重辅以具体代码实现来帮助读者加深理解,书中部分代码甚至可以直接使用。本书适用于有Java程序设计基础的开发人员。同时也可以作为计算机相关专业本科生或研究生的参考教材。

罗刚,计算机软件硕士,毕业于吉林工业大学。2005年创立北京盈智星科技发展有限公司,2008年联合创立上海数聚软件公司。猎兔搜索创始人,当前猎兔搜索在北京和上海以及石家庄均设有研发部。带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔文本挖掘系统,智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测,其开发的搜索软件日用户访问量上万次以上。

作品目录

  • 内容简介
  • 前言
  • 第1篇 自己动手抓取数据
  • 第1章 全面剖析网络爬虫
  • 1.1 抓取网页
  • 1.2 宽度优先爬虫和带偏好的爬虫
  • 1.3 设计爬虫队列
  • 1.4 设计爬虫架构
  • 1.5 使用多线程技术提升爬虫性能
  • 1.6 本章小结
  • 第2章 分布式爬虫
  • 2.1 设计分布式爬虫
  • 2.2 分布式存储
  • 2.3 Google的成功之道——GFS
  • 2.4 Google网页存储秘诀——BigTable
  • 2.5 Google的成功之道——MapReduce算法
  • 2.6 Nutch中的分布式
  • 2.7 本章小结
  • 第3章 爬虫的“方方面面”
  • 3.1 爬虫中的“黑洞”
  • 3.2 限定爬虫和主题爬虫
  • 3.3 有“道德”的爬虫
  • 3.4 本章小结
  • 第2篇 自己动手抽取Web内容
  • 第4章 “处理”HTML页面
  • 4.1 征服正则表达式
  • 4.2 抽取HTML正文
  • 4.3 抽取正文
  • 4.4 从JavaScript中抽取信息
  • 4.5 本章小结
  • 第5章 非HTML正文抽取
  • 5.1 抽取PDF文件
  • 5.2 抽取Office文档
  • 5.3 抽取RTF
  • 5.4 本章小结
  • 第6章 多媒体抽取
  • 6.1 抽取视频
  • 6.2 音频抽取
  • 6.3 本章小结
  • 第7章 去掉网页中的“噪声”
  • 7.1 “噪声”对网页的影响
  • 7.2 利用“统计学”消除“噪声”
  • 7.3 利用“视觉”消除“噪声”
  • 7.4 本章小结
  • 第3篇 自己动手挖掘Web数据
  • 第8章 分析Web图
  • 8.1 存储Web“图”
  • 8.2 利用Web“图”分析链接
  • 8.3 Google的秘密——PageRank
  • 8.4 PageRank的兄弟HITS
  • 8.5 PageRank与HITS的比较
  • 8.6 本章小结
  • 第9章 去掉重复的“文档”
  • 9.1 何为“重复”的文档
  • 9.2 去除“重复”文档——排重
  • 9.3 利用“语义指纹”排重
  • 9.4 SimHash排重
  • 9.5 分布式文档排重
  • 9.6 本章小结
  • 第10章 分类与聚类的应用
  • 10.1 网页分类
  • 10.2 网页聚类
  • 10.3 本章小结
展开全部