作品简介

本书首先介绍了开发环境的配置,接着讨论了Web网站的构成和页面渲染、动态网页和静态网页对爬虫造成的影响,紧接着详细介绍了信息校验型反爬虫、动态渲染反爬虫、文本混淆反爬虫知识、特征识别反爬虫的原理、实现和绕过,然后概览了App数据爬取的关键和常用的反爬虫手段,最后介绍了常见的编码和加密原理、JavaScript代码混淆知识、前端禁止事件以及与爬虫相关的法律知识和风险点。

韦世东,资深爬虫工程师,2019年华为云·云享专家,掘金社区优秀作者,GitChat认证作者,夜幕团队(NightTeam)成员。拥有七年互联网从业经验,擅长反爬虫的设计和绕过技,

作品目录

  • 前言
  • 阅读建议
  • 本书内容
  • 致谢
  • 免责声明
  • 相关资源
  • 第 1 章 开发环境配置
  • 1.1 操作系统的选择
  • 1.2 练习平台 Steamboat
  • 1.3 第三方库的安装
  • 1.4 常用软件的安装
  • 1.5 深度学习环境配置
  • 1.6 Node.js 环境配置
  • 第 2 章 Web网站的构成和页面渲染
  • 2.1 nginx服务器
  • 2.2 浏览器
  • 2.3 网络协议
  • 本章总结
  • 第 3 章 爬虫与反爬虫
  • 3.1 动态网页与网页源代码
  • 3.2 爬虫知识回顾
  • 3.3 反爬虫的概念与定义
  • 本章总结
  • 第 4 章 信息校验型反爬虫
  • 4.1 User-Agent 反爬虫
  • 4.2 Cookie 反爬虫
  • 4.3 签名验证反爬虫
  • 4.4 WebSocket 握手验证反爬虫
  • 4.5 WebSocket 消息校验反爬虫
  • 4.6 WebSocket Ping反爬虫
  • 本章总结
  • 第 5 章 动态渲染反爬虫
  • 5.1 常见的动态渲染反爬虫案例
  • 5.2 动态渲染的通用解决办法
  • 本章总结
  • 第 6 章 文本混淆反爬虫
  • 6.1 图片伪装反爬虫
  • 6.2 CSS 偏移反爬虫
  • 6.3 SVG 映射反爬虫
  • 6.4 字体反爬虫
  • 6.5 文本混淆反爬虫通用解决办法
  • 本章总结
  • 第 7 章 特征识别反爬虫
  • 7.1 WebDriver 识别
  • 7.2 浏览器特征
  • 7.3 爬虫特征
  • 7.4 隐藏链接反爬虫
  • 本章总结
  • 第 8 章 App反爬虫
  • 8.1 App 抓包
  • 8.2 APK文件反编译
  • 8.3 代码混淆反爬虫
  • 8.4 App 应用加固知识扩展
  • 8.5 了解应用程序自动化测试工具
  • 本章总结
  • 第 9 章 验证码
  • 9.1 字符验证码
  • 9.2 计算型验证码
  • 9.3 滑动验证码
  • 9.4 滑动拼图验证码
  • 9.5 文字点选验证码
  • 9.6 鼠标轨迹的检测和原理
  • 9.7 验证码产品赏析
  • 本章总结
  • 第 10 章 综合知识
  • 10.1 编码与加密
  • 10.2 JavaScript 代码混淆
  • 10.3 前端禁止事件
  • 10.4 法律法规
  • 本章总结
  • 作者简介
  • 看完了
展开全部