作品简介

本书讲解了如何使用Python编写网络爬虫,涵盖爬虫的概念、Web基础、Chrome、Charles和Packet Capture抓包、urllib、Requests请求库、lxml、Beautiful Soup、正则表达式解析数据、CSV、Excel、MySQL、Redis、MongoDB保存数据、反爬虫策略应对、爬虫框架Scrapy的使用与部署,以及应用案例。本书结构清晰、内容精练,代码示例典型实用,附带实践过程中遇到问题的解决方案,非常适合Python初学者和进阶读者阅读。

庄培杰,CSDN博客专家,排名146,访问量达1625W+,简书程序员专栏优秀作者。从事编程开发10余年,熟悉Python的方方面面,尤其擅长Python爬虫和数据分析。现任思可教育投资开发(深圳)有限公司Python高级工程师工程师。

作品目录

  • 作者简介
  • 前言
  • 第1章 Python爬虫概念与Web基础
  • 1.1 爬虫概念
  • 1.2 HTTP简述
  • 1.3 网页的组成
  • 第2章 Python爬虫基本库的使用
  • 2.1 Chrome抓包详解
  • 2.2 urllib库详解
  • 2.3 用lxml库解析网页节点
  • 2.4 实战:爬取小说《三国演义》
  • 第3章 Python爬虫抓包与数据解析
  • 3.1 抓包进阶
  • 3.2 Requests HTTP请求库
  • 3.3 实战:爬取微信文章中的图片、音频和视频
  • 3.4 Beautiful Soup解析库
  • 3.5 实战:爬取壁纸站点的壁纸
  • 3.6 正则表达式
  • 3.7 实战:爬取市级编码列表
  • 第4章 用CSV和Excel存储数据
  • 4.1 用CSV文件存储数据
  • 4.2 实战:爬取星座运势
  • 4.3 用Excel文件存储数据
  • 4.4 实战:爬取某音乐平台排行榜
  • 第5章 用数据库存储数据
  • 5.1 MySQL数据库
  • 5.2 数据库可视化工具DataGrip
  • 5.3 Redis数据库
  • 5.4 MongoDB数据库
  • 第6章 Python应对反爬虫策略
  • 6.1 反爬虫概述
  • 6.2 反爬虫策略
  • 6.3 JavaScript反爬虫策略
  • 6.4 Selenium模拟浏览器操作
  • 6.5 实战:爬取某网站的特定图
  • 6.6 PhantomJS
  • 6.7 常见验证码策略
  • 第7章 Python爬虫框架Scrapy(上)
  • 7.1 Scrapy框架简介与安装
  • 7.2 实战:爬取某网站每日壁纸
  • 7.3 Scrapy架构简介
  • 7.4 Spider详解
  • 7.5 Request类和Response类
  • 7.6 Item详解
  • 7.7 Item Pipeline详解
  • 7.8 实战:完善爬取每日壁纸的脚本
  • 7.9 设置请求头
  • 7.10 下载中间件详解
  • 7.11 实战:爬取某站点绘画频道的图片
  • 第8章 Python爬虫框架Scrapy(下)
  • 8.1 Scrapy对接Selenium
  • 8.2 实战:用Scrapy实现一个简单的代理池
  • 8.3 用Scrapyrt调度Scrapy
  • 8.4 用Docker部署Scrapy
  • 第9章 数据分析案例:Python岗位行情
  • 9.1 数据爬取
  • 9.2 NumPy库和pandas库
  • 9.3 用Matplotlib实现数据可视化
  • 9.4 用Wordcloud库进行词云绘制
  • 9.5 小结
  • 第10章 数据分析案例:某婚恋网站交友情况分析
  • 10.1 数据爬取
  • 10.2 安装Jupyter Notebook
  • 10.3 安装pyecharts
  • 10.4 数据分析
  • 10.5 小结
  • 反侵权盗版声明
展开全部