Python网络爬虫技术与实践电子书免费在线阅读,免费在线试读,作者：吕云翔等编著 -琅嬛苑

书名
Python网络爬虫技术与实践
作者吕云翔等编著
出版社机械工业出版社 / 2023-05
ISBN书号9787111728467
字数约 112,000 字
全本定价￥49.00

作品简介

本书介绍如何使用Python语言进行网络爬虫程序的开发，从Python语言的基本特性入手，详细介绍了Python爬虫程序开发的各个方面，包括HTTP、HTML、JavaScript、正则表达式、自然语言处理、数据科学等不同领域的内容。全书共14章，分为基础篇、进阶篇、提高篇和实战篇四个部分，内容覆盖网络抓取与爬虫编程中的主要知识和技术。同时，本书在重视理论基础的前提下，从实用性和丰富度出发，结合实例演示了编写爬虫程序的核心流程。

本书适合Python语言初学者、网络爬虫技术爱好者、数据分析从业人员以及高等院校计算机科学、软件工程等相关专业的师生阅读。

吕云翔等编著

作品目录

面向新工科高等院校大数据专业系列教材编委会成员名单
出版说明
前言
基础篇
第1章 Python基础及网络爬虫
1.1 了解Python语言
1.2 配置安装Python开发环境
1.3 Python基本语法介绍
1.4 互联网、HTTP与HTML
1.5 Hello, Spider!
1.6 分析网站
1.7 本章小结
1.8 实践：Python环境的配置与爬虫的运行
1.9 习题
第2章数据采集与预处理
2.1 数据
2.2 数据分析过程
2.3 数据采集
2.4 数据清洗
2.5 数据集成
2.6 数据转换
2.7 数据脱敏
2.8 本章小结
2.9 实践：使用Python尝试数据的清洗
2.10 习题
第3章静态网页采集
3.1 从采集开始
3.2 正则表达式
3.3 BeautifulSoup爬虫
3.4 XPath与lxml
3.5 遍历页面
3.6 使用API
3.7 本章小结
3.8 实践：哔哩哔哩直播间信息爬取练习
3.9 习题
第4章数据存储
4.1 Python中的文件
4.2 Python中的字符串
4.3 Python中的图片
4.4 CSV
4.5 数据库的使用
4.6 其他类型的文档
4.7 本章小结
4.8 实践：使用Python 3读写SQLite数据库
4.9 习题
进阶篇
第5章 JavaScript与动态内容
5.1 JavaScript与AJAX技术
5.2 抓取AJAX数据
5.3 抓取动态内容
5.4 本章小结
5.5 实践：爬取机械工业出版社新书上架信息
5.6 习题
第6章模拟登录与验证码
6.1 表单
6.2 Cookie
6.3 模拟登录网站
6.4 验证码
6.5 本章小结
6.6 实践：通过Selenium模拟登录Gitee并保存Cookie
6.7 习题
第7章爬虫数据的分析与处理
7.1 Python与文本分析
7.2 数据处理与科学计算
7.3 本章小结
7.4 实践：中国每年大学招生人数变化的可视化
7.5 习题
提高篇
第8章爬虫的灵活性和多样性
8.1 爬虫的灵活性——以微信数据抓取为例
8.2 爬虫的多样性
8.3 爬虫的部署和管理
8.4 本章小结
8.5 实践：基于PyQuery爬取菜鸟教程
8.6 习题
第9章 Selenium模拟浏览器与网站测试
9.1 测试
9.2 Python的单元测试
9.3 使用Python爬虫测试网站
9.4 使用Selenium测试
9.5 本章小结
9.6 实践：使用Selenium爬取百度搜索“爬虫”的结果
9.7 习题
第10章爬虫框架Scrapy与反爬虫
10.1 爬虫框架
10.2 网站反爬虫
10.3 本章小结
10.4 实践：使用反反爬虫策略抓取新浪体育频道热门新闻标题
10.5 习题
实战篇
第11章实战：根据关键词爬取新闻
11.1 利用Web Scraper工具
11.2 利用Selenium和XPath技术
11.3 本章小结
第12章实战：爬取科研文献信息
12.1 科研文献数据爬取
12.2 本章小结
第13章实战：蒸汽平台游戏数据爬取
13.1 爬取蒸汽平台上最受好评的前100个游戏信息
13.2 本章小结
第14章实战：Scrapy框架爬取股票信息
14.1 任务介绍
14.2 Scrapy项目实战
14.3 本章小结
参考文献

展开全部