数据简介
- 此次分析的数据来自于城市数据团对2016年双11天猫数据的采集和整理,原始数据为.xlsx格式
- 包括update_time/id/title/price/店名,共5个字段,其中id为商品的唯一标识,店名为品牌名。
分析工具
-
主要使用了Python中的Pandas库进行数据处理,利用matplotlib绘制分析图表,利用bokeh进行了可视化展示。
-
当前使用版本:Python 3.6.5 |Anaconda, Inc.| (default, Mar 29 2018, 13:32:41) [MSC v.1900 64 bit (AMD64)]
说明
- 本次数据分析主要供学习使用,目的在于熟悉Python及相关库,同时练习数据分析的思维方式。
- 本次分析主要基于描述性统计,暂不包含预测模型。
- 文字说明会涉及实现的具体细节,而不仅是分析结果的展示。
- bokeh制图为交互式图表,此处截图展示
- 数据每日只采集一次,对于一日之内的变化无法进行分析
分析目标
-
商品销售时间分析
- 统计出商品总数和品牌总数
- 计算双十一当天在售商品占比
- 未参与双十一当天活动的商品,双十一之后的去向
- 参加双十一活动的品牌及其商品数量的分布
-
价格折扣分析
- 针对每个商品,分析其价格变化,判断是否打折
- 针对在打折商品,计算其折扣率
- 按照品牌分析,不同品牌的打折力度
- 分析商家打折套路
-
构建商品id/品牌的汇总表
- 商品id资料表格
- 品牌汇总资料表格
- 假打折商品详情
正文
相关模块导入
'''
想要学习Python?Python学习交流群:1004391443满足你的需求,资料都已经上传群文件,可以自行下载!
'''
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
# 不发出警告
from bokeh.io import output_notebook
output_notebook()
# 导入notebook绘图模块
from bokeh.plotting import figure,show
from bokeh.models import ColumnDataSource
# 导入图表绘制、图标展示模块
# 导入ColumnDataSource模块
import os
加载数据和数据预处理
设置工作路径,pandas导入数据
检查数据是否有缺失值
检查数据类型
对数据进行基本预处理
查看数据
Part1 商品销售时间分析
统计出商品总数和品牌总数
计算双十一当天在售商品占比
未参与双十一当天活动的商品,双十一之后的去向
参加双十一活动的品牌及其商品数量的分布
统计商品总数和品牌总数 :
得到商品总数:3502,品牌总数:22
计算双十一当天在售商品占比 :
得到双十一当天在售商品占比为:66.68%,约1/3的商品在双十一当天没有上架
商品销售情况分类
为了分析没参加双十一的产品去向,我们首先对所有商品id依据其上架时间进行分类。
根据date字段,统计每件商品的最早和最迟销售时间;再统计双11当天是否销售;最后进行分类。
A. 11.11前后及当天都在售 → 一直在售
B. 11.11之后停止销售 → 双十一后停止销售
C. 11.11开始销售并当天不停止 → 双十一当天上架并持续在售
D. 11.11开始销售且当天停止 → 仅双十一当天有售
E. 11.5 - 11.9 → 双十一前停止销售
F. 仅11.11当天停止销售 → 仅双十一当天停止销售
G. 11.12开始销售 → 双十一后上架
H. 11.10下架 → 可能11.11售罄 以后单独分析
未参与双十一活动的商品去向分析
暂时下架
改名上架
预售
未参与活动
未参与双十一当天活动的商品中:
暂时下架商品的数量为242个,更名上架商品的数量为110个,预售商品数量为453个,未参与活动商品数量为200个
参加双十一活动的品牌及其商品数量的分布
真正参与双十一活动的商品 = 双十一当天在售的商品 + 预售商品
对暂时下架/更名上架/售罄商品 后续可以研究其价格变化再确定
绘制堆叠图进行可视化
补充品牌数据汇总
Part2 价格折扣分析
1. 针对每个商品,分析其价格变化,判断是否打折2. 针对在打折商品,计算其折扣率3. 按照品牌分析,不同品牌的打折力度4. 分析商家打折套路
针对每个商品,评估其打折情况
真打折:商品的价格在10天内有波动,双11价格为10天内最低价,无提前涨价
假打折:双十一之前存在涨价现象
不打折:商品价格无变化
观察数据可知
假打折商品的品牌集中于妮维雅和美加净(各6件),美宝莲有1件
兰蔻有一件商品在双十一前涨价后,双十一当日下架
SKII和薇姿各有一件商品涨价后,双十一当天维持该价格
大牌套路深,深知法律风险,但这四件商品依旧被划分在假打折!
真打折的商品约占比24.27%,不打折的商品数量约占比75.27%,假打折的商品约占0.46%
针对在打折商品,计算其折扣率
去除假打折商品
考虑双十一价格对比其前后的折扣率,主要考虑前折扣率
只计算九五折以上折扣
观察上图可知,商品折扣率主要集中在五折和九折,二者共占50%以上
根据商品id汇总数据
包括商品销售时间和价格折扣数据
根据品牌汇总数据
包括品牌商品销售时间和价格折扣数据
计算品牌折扣商品比例
按照品牌分析,不同品牌的打折力度¶
利用bokeh绘制浮动散点图
y坐标为品牌名,x坐标为折扣力度
分析商家打折套路
筛选各品牌的折扣商品比例和平均折扣率
划分四个象限,利用bokeh制图
打折套路解析
少量大打折:雅诗兰黛、兰蔻、薇姿、悦诗风吟、欧珀莱
大量少打折:欧莱雅、玉兰油、美宝莲、妮维雅、蜜丝佛陀、美加净
大量大打折:自然堂、相宜本草、佰草集
不打折:SKII、倩碧、兰芝、娇兰、植村秀、资生堂、雅漾、雪花秀
假打折现象:妮维雅和美加净各有6件商品
Part3 汇总表格导出
商品id资料表格
品牌汇总资料表格
假打折商品详情