作品简介
本书从Python最基础的知识开始,主要聚焦于数据结构,接着快速转至数据整理的基本工具NumPy和pandas库。我们着重讲述为什么应该放弃用其他语言实现的传统方法,而采用Python中预先构建程序的方法实现数据清理。之后,你将了解如何使用相同的Python后端,从各种不同的数据源(如Internet、大型数据库或Excel财务表)中提取和转换数据。然后,你还将学习如何根据下游的分析工具需求,处理缺失或不正确的数据并重新格式化数据。你将通过现实世界的示例和数据集学习这些相关概念。
提尔塔吉奥蒂·萨卡(Tirthajyoti Sarkar)博士,是半导体技术领域的高级工程师,他将前沿的数据科学与机器学习技术应用于设计自动化和预测分析,并定期撰写关于Python编程和数据科学主题的文章。他拥有伊利诺伊大学的博士学位和斯坦福大学与麻省理工学院的人工智能和机器学习的证书。
舒布哈迪普·罗伊乔杜里(Shubhadeep Roychowdhury),是一家总部在巴黎的网络安全初创公司的高级软件工程师,目前致力于应用先进的计算机视觉、数据工程算法和工具开发尖端产品。他经常撰写Python算法实现和类似主题的文章。他拥有西孟加拉邦科技大学的计算机科学硕士学位和斯坦福大学的机器学习证书。