文章目录
- Excel数据透视表操作
- 数据透视表基本原理
- python中使用pandas的pivot函数
数据透视表是数据分析时的大招,可快速分类统计需要二次加工的信息,并生成相应的统计结果。下面通过一个实例直观体验一下。
Excel数据透视表操作
现在我们需要统计一个销售数据,想直到每种产品类别每个月的销售额是多少:
当然,我们可以采用筛选的方法,逐一筛选出每个产品类型的数据并进行求和,然而这种操作可能会使你加班到深夜。那么使用excel数据透视表该怎么做呢?
把订购日期放在行统计项中,产品类别放到列统计项中,值统计项中计算销售额则可得到我们想要的结果。
数据透视表基本原理
根据如上例子,我们可以初步总结出数据透视表的原理:一般的数据统计表格可能只有一个维度,每一行的
列值
,这样的数据就比较细节化,难以看出整体上的统计结果。数据透视表就是对
列值
进行重新组织分析,生成
三维度数据
,及
行
、
列
和
值列表
,用以展示我们关注的整体上的统计结果,行、列、值统计项都可以分层次统计多个条目。
python中使用pandas的pivot函数
python中pandas库作为数据分析常用的库,也提供了一个数据透视表操作的函数:pivot。
pivot方法可以接受三个参数:
processData = pd.pivot(index="string1",columns="string2",values="string3")
分别对应着数据透视表中的行、列、值项。
需要注意一点,在使用pivot方法的时候,原始数据集中不能存在存在重复条目,此时pivot函数无法确定数据透视表中的数值即会报错ValueError: Index contains duplicate entries, cannot reshape。
【待补充】