作品简介

本书从Python最基础的知识开始,主要聚焦于数据结构,接着快速转至数据整理的基本工具NumPy和pandas库。我们着重讲述为什么应该放弃用其他语言实现的传统方法,而采用Python中预先构建程序的方法实现数据清理。之后,你将了解如何使用相同的Python后端,从各种不同的数据源(如Internet、大型数据库或Excel财务表)中提取和转换数据。然后,你还将学习如何根据下游的分析工具需求,处理缺失或不正确的数据并重新格式化数据。你将通过现实世界的示例和数据集学习这些相关概念。

提尔塔吉奥蒂·萨卡(Tirthajyoti Sarkar)博士,是半导体技术领域的高级工程师,他将前沿的数据科学与机器学习技术应用于设计自动化和预测分析,并定期撰写关于Python编程和数据科学主题的文章。他拥有伊利诺伊大学的博士学位和斯坦福大学与麻省理工学院的人工智能和机器学习的证书。

舒布哈迪普·罗伊乔杜里(Shubhadeep Roychowdhury),是一家总部在巴黎的网络安全初创公司的高级软件工程师,目前致力于应用先进的计算机视觉、数据工程算法和工具开发尖端产品。他经常撰写Python算法实现和类似主题的文章。他拥有西孟加拉邦科技大学的计算机科学硕士学位和斯坦福大学的机器学习证书。

作品目录

  • 译者序
  • 前言
  • 第1章 Python数据整理入门
  • 1.1 引言
  • 1.2 Python数据整理
  • 1.3 列表、集合、字典、元组和字符串
  • 1.4 小结
  • 第2章 高级数据结构和文件处理
  • 2.1 引言
  • 2.2 高级数据结构
  • 2.3 Python基本文件操作
  • 2.4 小结
  • 第3章 NumPy、pandas和Matplotlib简介
  • 3.1 引言
  • 3.2 NumPy数组操作
  • 3.3 pandas的DataFrame
  • 3.4 NumPy和pandas的统计与可视化
  • 3.5 小结
  • 第4章 深入学习Python数据整理
  • 4.1 引言
  • 4.2 选取子集、过滤和分组
  • 4.3 处理缺失值和检测异常值
  • 4.4 合并数据的方法:concat、merge和join
  • 4.5 pandas的实用方法
  • 4.6 小结
  • 第5章 适应不同类型的数据源
  • 5.1 引言
  • 5.2 从不同的基于文本的(和非文本的)源中读取数据
  • 5.3 BeautifulSoup 4和网页解析简介
  • 5.4 小结
  • 第6章 学习数据整理的隐藏秘密
  • 6.1 引言
  • 6.2 高级列表推导式和zip函数
  • 6.3 数据格式化
  • 6.4 识别并清除异常值
  • 6.6 小结
  • 第7章 高级网络抓取和数据收集
  • 7.1 引言
  • 7.2 网络抓取和BeautifulSoup库的基础
  • 7.3 从XML读取数据
  • 7.4 从API读取数据
  • 7.5 正则表达式的基础
  • 7.6 小结
  • 第8章 关系数据库管理系统和结构化查询语言
  • 8.1 引言
  • 8.2 RDBMS和SQL概述
  • 8.3 使用RDBMS(MySQL/PostgreSQL/SQLite)
  • 8.4 小结
  • 第9章 数据整理在现实生活中的应用
  • 9.1 引言
  • 9.2 将所学知识应用于现实生活中的数据整理任务
  • 9.3 数据整理拓展延伸
  • 9.4 小结
  • 附录 活动实施步骤
展开全部