作品简介

本书是一本通过实战教初学者学习爬取数据、清洗和组织数据进行分析和可视化的Python读物。书中案例均经过实战检验,笔者在实践过程中深感采集数据、清洗和组织数据的重要性,作为一名数据行业的“码农”,数据就是沃土,没有数据,我们将无田可耕。

本书共13章,包括6个核心主题,其一是Python基础入门,包括环境配置、基本操作、数据类型、语句和函数;其二是Python爬虫的构建,包括网页结构解析、爬虫流程设计、代码优化、爬虫效率优化、无线端的数据采集、容错处理、反防爬虫、表单交互和模拟页面点击;其三是Python数据库应用,包括MongoDB、MySQL在Python中的连接与应用;其四是数据清洗和组织,包括NumPy数组知识,以及pandas数据的读写、分组、变形,缺失值、异常值和重复值处理,时序数据处理和正则表达式的使用等;其五是综合应用实例,帮助读者贯穿爬虫、数据清洗与组织的过程;最后是数据可视化,包括matplotlib和pyecharts两个库的使用,涉及饼图、柱形图、线图、词云图等图形,帮助读者进入可视化的殿堂。

本书以实战为主,适合Python初学者及高等院校相关专业的学生阅读,也适合Python培训机构作为实验教材。

零一

原名陈海城,慕研数据分析师事务所创始人,电商数据专家,数据分析师,开发工程师;从事教育培训、数据分析和人工智能行业,专注于电商企业的数据化服务。

韩要宾

CDA数据分析研究院资深讲师;5年电商从业经验,4年数据挖掘实战经验;专注于数据分析与挖掘、机器学习、深度学习,服务客户包括苏宁易购、迪卡侬、百草味、浙江师范大学等。

黄园园

具有10年软件开发经验,全栈工程师,六西格玛黑带,精通Python和机器学习算法,具有丰富的分布式爬虫开发经验;曾在苏州三星电子电脑(SESC)、新加坡电信(NCS)、希捷科技(Seagate Technology)等世界知名企业研发部工作,参与过花旗银行在线支付系统、银行账单自动化审核系统等大型软件开发,曾任杭州沐垚科技有限公司CTO。

作品目录

  • 内容简介
  • 前言
  • 第1章 Python语言基础
  • 1.1 安装Python环境
  • 1.2 Python操作入门
  • 1.3 Python数据类型
  • 1.4 Python语句与函数
  • 1.5 习题
  • 第2章 数据采集的基本知识
  • 2.1 关于爬虫的合法性
  • 2.2 了解网页
  • 2.3 使用requests库请求网站
  • 2.4 使用Beautiful Soup解析网页
  • 2.5 清洗和组织数据
  • 2.6 爬虫攻防战
  • 2.7 关于什么时候存储数据
  • 2.8 习题
  • 第3章 用API爬取天气预报数据
  • 3.1 注册免费API和阅读技术文档
  • 3.2 获取API数据
  • 3.3 存储数据到MongoDB
  • 3.4 MongoDB数据库查询
  • 3.5 习题
  • 第4章 大型爬虫案例:抓取某电商网站的商品数据
  • 4.1 观察页面特征和解析数据
  • 4.2 工作流程分析
  • 4.3 构建类目树
  • 4.4 获取景点产品列表
  • 4.5 代码优化
  • 4.6 爬虫效率优化
  • 4.7 容错处理
  • 4.8 习题
  • 第5章 采集手机App数据
  • 5.1 模拟器及抓包环境配置
  • 5.2 App数据抓包
  • 5.3 手机App数据的采集
  • 5.4 习题
  • 第6章 Scrapy爬虫
  • 6.1 Scrapy简介
  • 6.2 安装Scrapy
  • 6.3 案例:用Scrapy抓取股票行情
  • 6.4 习题
  • 第7章 Selenium爬虫
  • 7.1 Selenium简介
  • 7.2 安装Selenium
  • 7.3 Selenium定位及操作元素
  • 7.4 案例:用Selenium抓取某电商网站数据
  • 7.5 习题
  • 第8章 爬虫案例集锦
  • 8.1 采集外卖平台数据
  • 8.2 采集内容平台数据
  • 8.3 采集招聘平台数据
  • 8.4 采集知识付费平台数据
  • 第9章 数据库连接和查询
  • 9.1 使用PyMySQL
  • 9.2 使用SQLAlchemy
  • 9.3 MongoDB
  • 9.4 习题
  • 第10章 NumPy数组操作
  • 10.1 NumPy简介
  • 10.2 一维数组
  • 10.3 多维数组
  • 10.4 数组的运算
  • 10.5 习题
  • 第11章 pandas数据清洗
  • 11.1 数据读写、选择、整理和描述
  • 11.2 数据分组、分割、合并和变形
  • 11.3 缺失值、异常值和重复值处理
  • 11.4 时序数据处理
  • 11.5 数据类型转换
  • 11.6 正则表达式
  • 11.7 习题
  • 第12章 综合应用实例
  • 12.1 按性价比给用户推荐旅游产品
  • 12.2 通过热力图分析为用户提供出行建议
  • 第13章 数据可视化
  • 13.1 应用matplotlib画图
  • 13.2 应用pyecharts画图
  • 13.3 习题
  • 专业服务
展开全部