作品简介

本书介绍如何使用Python语言进行网络爬虫程序的开发,从Python语言的基本特性入手,详细介绍了Python爬虫程序开发的各个方面,包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章,分为基础篇、进阶篇、提高篇和实战篇四个部分,内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时,本书在重视理论基础的前提下,从实用性和丰富度出发,结合实例演示了编写爬虫程序的核心流程。

本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。

吕云翔等编著

作品目录

  • 面向新工科高等院校大数据专业系列教材编委会成员名单
  • 出版说明
  • 前言
  • 基础篇
  • 第1章 Python基础及网络爬虫
  • 1.1 了解Python语言
  • 1.2 配置安装Python开发环境
  • 1.3 Python基本语法介绍
  • 1.4 互联网、HTTP与HTML
  • 1.5 Hello, Spider!
  • 1.6 分析网站
  • 1.7 本章小结
  • 1.8 实践:Python环境的配置与爬虫的运行
  • 1.9 习题
  • 第2章 数据采集与预处理
  • 2.1 数据
  • 2.2 数据分析过程
  • 2.3 数据采集
  • 2.4 数据清洗
  • 2.5 数据集成
  • 2.6 数据转换
  • 2.7 数据脱敏
  • 2.8 本章小结
  • 2.9 实践:使用Python尝试数据的清洗
  • 2.10 习题
  • 第3章 静态网页采集
  • 3.1 从采集开始
  • 3.2 正则表达式
  • 3.3 BeautifulSoup爬虫
  • 3.4 XPath与lxml
  • 3.5 遍历页面
  • 3.6 使用API
  • 3.7 本章小结
  • 3.8 实践:哔哩哔哩直播间信息爬取练习
  • 3.9 习题
  • 第4章 数据存储
  • 4.1 Python中的文件
  • 4.2 Python中的字符串
  • 4.3 Python中的图片
  • 4.4 CSV
  • 4.5 数据库的使用
  • 4.6 其他类型的文档
  • 4.7 本章小结
  • 4.8 实践:使用Python 3读写SQLite数据库
  • 4.9 习题
  • 进阶篇
  • 第5章 JavaScript与动态内容
  • 5.1 JavaScript与AJAX技术
  • 5.2 抓取AJAX数据
  • 5.3 抓取动态内容
  • 5.4 本章小结
  • 5.5 实践:爬取机械工业出版社新书上架信息
  • 5.6 习题
  • 第6章 模拟登录与验证码
  • 6.1 表单
  • 6.2 Cookie
  • 6.3 模拟登录网站
  • 6.4 验证码
  • 6.5 本章小结
  • 6.6 实践:通过Selenium模拟登录Gitee并保存Cookie
  • 6.7 习题
  • 第7章 爬虫数据的分析与处理
  • 7.1 Python与文本分析
  • 7.2 数据处理与科学计算
  • 7.3 本章小结
  • 7.4 实践:中国每年大学招生人数变化的可视化
  • 7.5 习题
  • 提高篇
  • 第8章 爬虫的灵活性和多样性
  • 8.1 爬虫的灵活性——以微信数据抓取为例
  • 8.2 爬虫的多样性
  • 8.3 爬虫的部署和管理
  • 8.4 本章小结
  • 8.5 实践:基于PyQuery爬取菜鸟教程
  • 8.6 习题
  • 第9章 Selenium模拟浏览器与网站测试
  • 9.1 测试
  • 9.2 Python的单元测试
  • 9.3 使用Python爬虫测试网站
  • 9.4 使用Selenium测试
  • 9.5 本章小结
  • 9.6 实践:使用Selenium爬取百度搜索“爬虫”的结果
  • 9.7 习题
  • 第10章 爬虫框架Scrapy与反爬虫
  • 10.1 爬虫框架
  • 10.2 网站反爬虫
  • 10.3 本章小结
  • 10.4 实践:使用反反爬虫策略抓取新浪体育频道热门新闻标题
  • 10.5 习题
  • 实战篇
  • 第11章 实战:根据关键词爬取新闻
  • 11.1 利用Web Scraper工具
  • 11.2 利用Selenium和XPath技术
  • 11.3 本章小结
  • 第12章 实战:爬取科研文献信息
  • 12.1 科研文献数据爬取
  • 12.2 本章小结
  • 第13章 实战:蒸汽平台游戏数据爬取
  • 13.1 爬取蒸汽平台上最受好评的前100个游戏信息
  • 13.2 本章小结
  • 第14章 实战:Scrapy框架爬取股票信息
  • 14.1 任务介绍
  • 14.2 Scrapy项目实战
  • 14.3 本章小结
  • 参考文献
展开全部