作品简介

本书将介绍如何使用Python编写网络爬虫程序获取互联网上的大数据。

本书包括三部分内容:基础部分、进阶部分和项目实践。

基础部分(第1~6章)主要介绍爬虫的三个步骤(获取网页、解析网页和存储数据),并通过诸多示例的讲解,让读者从基础内容开始系统性地学习爬虫技术,并在实践中提升Python爬虫水平。

进阶部分(第7~12章)包括多线程的并发和并行爬虫、分布式爬虫、更换IP等,帮助读者进一步提升爬虫水平。

项目实践部分(第13~16章)使用本书介绍的爬虫技术对几个真实的网站进行抓取,让读者能在读完本书后根据自己的需求写出爬虫程序。

无论是否有编程基础,只要是对爬虫技术感兴趣的读者,本书就能带领读者从入门到进阶,再到实战,一步步了解爬虫,终写出自己的爬虫程序。

唐松,陈智铨 编著。

作品目录

  • 推荐序一
  • 推荐序二
  • 前言一
  • 前言二
  • 第1章 网络爬虫入门
  • 1.1 为什么要学网络爬虫
  • 1.2 网络爬虫是否合法
  • 1.3 网络爬虫的基本议题
  • 第2章 编写第一个网络爬虫
  • 2.1 搭建Python平台
  • 2.2 Python使用入门
  • 2.3 编写第一个简单的爬虫
  • 2.4 Python实践:基础巩固
  • 第3章 静态网页抓取
  • 3.1 安装Requests
  • 3.2 获取响应内容
  • 3.3 定制Requests
  • 3.4 Requests爬虫实践:TOP250电影数据
  • 第4章 动态网页抓取
  • 4.1 动态抓取的实例
  • 4.2 解析真实地址抓取
  • 4.3 通过Selenium模拟浏览器抓取
  • 4.4 Selenium爬虫实践:深圳短租数据
  • 第5章 解析网页
  • 5.1 使用正则表达式解析网页
  • 5.2 使用BeautifulSoup解析网页
  • 5.3 使用lxml解析网页
  • 5.4 总结
  • 5.5 BeautifulSoup爬虫实践:房屋价格数据
  • 第6章 数据存储
  • 6.1 基本存储:存储至TXT或CSV
  • 6.2 存储至MySQL数据库
  • 6.3 存储至MongoDB数据库
  • 6.4 总结
  • 6.5 MongoDB爬虫实践:虎扑论坛
  • 第7章 提升爬虫的速度
  • 7.1 并发和并行,同步和异步
  • 7.2 多线程爬虫
  • 7.3 多进程爬虫
  • 7.4 多协程爬虫
  • 7.5 总结
  • 第8章 反爬虫问题
  • 8.1 为什么会被反爬虫
  • 8.2 反爬虫的方式有哪些
  • 8.3 如何“反反爬虫”
  • 8.4 总结
  • 第9章 解决中文乱码
  • 9.1 什么是字符编码
  • 9.2 Python的字符编码
  • 9.3 解决中文编码问题
  • 9.4 总结
  • 第10章 登录与验证码处理
  • 10.1 处理登录表单
  • 10.2 验证码的处理
  • 10.3 总结
  • 第11章 服务器采集
  • 11.1 为什么使用服务器采集
  • 11.2 使用动态IP拨号服务器
  • 11.3 使用Tor代理服务器
  • 第12章 分布式爬虫
  • 12.1 安装Redis
  • 12.2 修改Redis配置
  • 12.3 Redis分布式爬虫实践
  • 12.4 总结
  • 第13章 爬虫实践一:维基百科
  • 13.1 项目描述
  • 13.2 网站分析
  • 13.3 项目实施:深度优先的递归爬虫
  • 13.4 项目进阶:广度优先的多线程爬虫
  • 13.5 总结
  • 第14章 爬虫实践二:知乎Live
  • 14.1 项目描述
  • 14.2 网站分析
  • 14.3 项目实施
  • 14.4 总结
  • 第15章 爬虫实践三:百度地图API
  • 15.1 项目描述
  • 15.2 获取API秘钥
  • 15.3 项目实施
  • 15.4 总结
  • 第16章 爬虫实践四:餐厅点评
  • 16.1 项目描述
  • 16.2 网站分析
  • 16.3 项目实施
  • 16.4 总结
展开全部