作品简介

本书深入系统地介绍了Python流行框架Scrapy的相关技术及使用技巧。全书共14章,从逻辑上可分为基础篇和高级篇两部分,基础篇重点介绍Scrapy的核心元素,如spider、selector、item、link等;高级篇讲解爬虫的高级话题,如登录认证、文件下载、执行JavaScript、动态网页爬取、使用HTTP代理、分布式爬虫的编写等,并配合项目案例讲解,包括供练习使用的网站,以及京东、知乎、豆瓣、360爬虫案例等。

本书案例丰富,注重实践,代码注释详尽,适合有一定Python语言基础,想学习编写复杂网络爬虫的读者使用。

刘硕:硕士,曾就职于知名外企,从事一线开发工作10年,目前主要从事Python开发与教学工作,在慕课网开设有多门Python课程,深受学员欢迎。

作品目录

  • 内容简介
  • 作者简介
  • 前言
  • 第1章 初识Scrapy
  • 1.1 网络爬虫是什么
  • 1.2 Scrapy简介及安装
  • 1.3 编写第一个Scrapy爬虫
  • 1.4 本章小结
  • 第2章 编写Spider
  • 2.1 Scrapy框架结构及工作原理
  • 2.2 Request和Response对象
  • 2.3 Spider开发流程
  • 2.4 本章小结
  • 第3章 使用Selector提取数据
  • 3.1 Selector对象
  • 3.2 Response内置Selector
  • 3.3 XPath
  • 3.4 CSS选择器
  • 3.5 本章小结
  • 第4章 使用Item封装数据
  • 4.1 Item和Field
  • 4.2 拓展Item子类
  • 4.3 Field元数据
  • 4.4 本章小结
  • 第5章 使用Item Pipeline处理数据
  • 5.1 Item Pipeline
  • 5.2 更多例子
  • 5.3 本章小结
  • 第6章 使用LinkExtractor提取链接
  • 6.1 使用LinkExtractor
  • 6.2 描述提取规则
  • 6.3 本章小结
  • 第7章 使用Exporter导出数据
  • 7.1 指定如何导出数据
  • 7.2 添加导出数据格式
  • 7.3 本章小结
  • 第8章 项目练习
  • 8.1 项目需求
  • 8.2 页面分析
  • 8.3 编码实现
  • 8.4 本章小结
  • 第9章 下载文件和图片
  • 9.1 FilesPipeline和ImagesPipeline
  • 9.2 项目实战:爬取matplotlib例子源码文件
  • 9.3 项目实战:下载360图片
  • 9.4 本章小结
  • 第10章 模拟登录
  • 10.1 登录实质
  • 10.2 Scrapy模拟登录
  • 10.3 识别验证码
  • 10.4 Cookie登录
  • 10.5 本章小结
  • 第11章 爬取动态页面
  • 11.1 Splash渲染引擎
  • 11.2 在Scrapy中使用Splash
  • 11.3 项目实战:爬取toscrape中的名人名言
  • 11.4 项目实战:爬取京东商城中的书籍信息
  • 11.5 本章小结
  • 第12章 存入数据库
  • 12.1 SQLite
  • 12.2 MySQL
  • 12.3 MongoDB
  • 12.4 Redis
  • 12.5 本章小结
  • 第13章 使用HTTP代理
  • 13.1 HttpProxyMiddleware
  • 13.2 使用多个代理
  • 13.3 获取免费代理
  • 13.4 实现随机代理
  • 13.5 项目实战:爬取豆瓣电影信息
  • 13.6 本章小结
  • 第14章 分布式爬取
  • 14.1 Redis的使用
  • 14.2 scrapy-redis源码分析
  • 14.3 使用scrapy-redis进行分布式爬取
  • 14.4 本章小结
展开全部