本书特色
用传统的电子表格来处理数据不仅效率低下,而且无法处理某些格式的数据,对于混乱或庞大的数据集更是束手无策。本书将教你如何利用语法简单、容易上手的Python轻松处理数据。作者通过循序渐进的练习,详细介绍如何有效地获取、清洗、分析与呈现数据,如何将数据处理过程自动化,如何安排文件编辑与清洗任务,如何处理更大的数据集,以及如何利用获取的数据来创作引人入胜的故事。学完本书,你的数据处理和分析能力将更上一层楼。
- 快速了解Python基本语法、数据类型和语言概念
- 概述数据的获取与存储方式
- 清洗数据并格式化,以消除数据集中的重复值与错误
- 学习何时对数据进行标准化,何时对数据清理进行测试并将其脚本化
- 使用Scrapy写网络爬虫
- 利用新的Python库和技术对数据集进行探索与分析
- 使用Python解决方案将整个数据处理过程自动化
“如果你一直感觉电子表格(甚至关系型数据库)无法回答你想要提出的问题,或者除这些工具之外你准备进一步学习,那么这本书非常适合你。我一直在等待这本书的出现。”
——Derek Willis,ProPublica新闻应用开发者,OpenElections联合创始人
“所有新手数据科学家、数据工程师或其他技术方面的数据专家都应该读一读这本实践指南。数据处理领域正需要这样一本书,真希望我第一次开始用Python处理数据时就能有它指导。”
——Tyrone Grandison博士,Proficiency Labs Intl. CEO
目录
版权声明
O’Reilly Media, Inc.介绍
本书赞誉
前言
第 1 章 Python 简介
第 2 章 Python 基础
第 3 章 供机器读取的数据
第 4 章 处理 Excel 文件
第 5 章 处理 PDF 文件,以及用 Python 解决问题
第 6 章 数据获取与存储
第 7 章 数据清洗:研究、匹配与格式化
第 8 章 数据清洗:标准化和脚本化
第 9 章 数据探索和分析
第 10 章 展示数据
第 11 章 网页抓取:获取并存储网络数据
第 12 章 高级网页抓取:屏幕抓取器与爬虫
第 13 章 应用编程接口
第 14 章 自动化和规模化
第 15 章 结论
附录 A 编程语言对比
附录 B 初学者的 Python 学习资源
附录 C 学习命令行
附录 D 高级 Python 设置
附录 E Python 陷阱
附录 F IPython 指南
附录 G 使用亚马逊网络服务
关于作者
关于封面
下载
https://pan.baidu.com/s/1B2H_CxsXfnjRouxU6bCTRw