该项目的数据集来源于天池,是由阿里巴巴提供的一个淘宝用户行为数据集,其中包含了2017年11月25日至2017年12月3日之间,一百万个随机用户的所有用户行为(行为包括点击、购买、加购、收藏)数据,有关每个字段的介绍如下所示:
其中,用户行为类型共有四种,具体的说明见下表:
–分析思路:从what、why和how这三个角度对用户行为进行分析,即什么是用户行为分析?为什么进行用户行为分析?如何进行用户行为分析?而其中的why作为我们的重点解释对象。 –分析目的:通过对淘宝用户的点击、加购、收藏、购买行为进行深入研究,让企业或者店铺更好地了解用户行为习惯,为网络营销提供指导意义,也为取得新成绩打下坚实的基础。
2.1 what 什么是用户行为分析?
用户行为分析,可以看做是分析用户行为,而用户行为包括5w2h,即时间、地点、人物、起因、经过、结果和金钱,也就是说分析用户行为则是分析这7个要素产生的数据,基于这些数据进行统计、分析,从中发现用户使用产品的规律,并将这些规律与产品、渠道、价格和促销等相结合,从而发现当前所存在的问题,并为后续进一步改进和优化提供依据,这将有助于企业提高平台转化率,进而提升企业的收益。
2.2 why 为什么进行用户行为分析?
从时间的维度来看,通过对用户行为路径的分析可以帮助企业发现:用户从哪里来?用户做了什么操作?用户从哪里流失的?用户为什么流失? 从空间的维度来看,根据用户的行为特征构建用户画像,进而实现精准营销和提升用户体验,达到提升企业盈利的目的。
2.3 how 如何进行用户行为分析?
此环节正是我们这次项目的重中之重,我们主要通过以下三种模型进行用户行为分析:
3.1 读取数据
数据总容量为1亿多,我这里选择了500万来进行分析.
3.2 查看数据信息
<class ‘pandas.core.frame.Dataframe’> RangeIndex: 5000000 entries, 0 to 4999999 Data columns (total 5 columns): 用户ID int64 商品ID int64 商品类目ID int64 行为类型 object 时间戳 int64 dtypes: int64(4), object(1) memory usage: 190.7+ MB 数据维度500万×5,1个字符串类型和4个64位整型数据,500万数据大小190.7MB
3.3 描述性统计
由于该数据集中会出现一个用户ID多次浏览的情况,因此这里“用户ID”的count数和max值不代表用户数量,“商品ID“和“商品类目ID“类似
用户行为类型分为4种,其中浏览量pv最多,达到4475232次
4.1 重复值处理
对于重复值,直接采用删除的方式处理。
4.2 缺失值处理
在处理缺失值之前,先查看有多少缺失值
用户ID 0 商品ID 0 商品类目ID 0 行为类型 0 时间戳 0 dtype: int64 可以看到没有缺失值,因此也就不用处理了
4.3 异常值处理
根据数据介绍,可知道数据的日期包含在2017年11月25日至2017年12月3日之间,因此可根据这条规则对数据进行异常处理
4.4 数据清洗
将时间戳转换为datetime格式
提取出日期和时间
截止目前,我们的数据预处理工作就完成了,可查看处理结果
5.1 获取用户
1.日pv、日人均pv和日uv
–日pv和日uv两者走势相类似,也进一步说明日人均pv波动较平缓,其平均水平为13.34; –日pv和日uv均呈现上升趋势,且均在12月2日突然升高至九日内最高水平,而12月2日是周六,但11月25日也是周六,因此可能不是周末的原因,又由于12月2日距离双十一较近且多数人会在双十一购买近期所需物品,因此初步推测12月2日~3日的突然升高是因为商家进行促销、宣传推广等活动。
2.日新增uv和日新增uv的pv
日新增uv和日新增uv的pv均呈现明显下降趋势,且在12月2日新增uv的人均pv为627/62=10.11(低于日人均pv的平均水平),说明日pv的突然升高不是由12月2日当日新增的uv带来的,而是由老uv带来的,另外,12月2日新增uv为62人,环比增长-0.44,从侧面反映了此次活动的目的可能不是拉新。
5.2 提高活跃度
1.时活跃用户数
19时~22时为用户活跃高峰期, 而2时~5时则为用户活跃低峰期,可在用户活跃高峰期加大活动宣传力度。
2.日活跃用户数
日活跃用户数呈现明显的增长趋势,且在12月2日取得最大值,说明此次活动的目的可能是促活。
5.3 提高留存率
–就时间窗口来说,次日留存和3日留存均表现出先减后增的趋势,而7日留存则相比之前略有减少; –就某一天来说,11月25日新增的活跃用户3日留存<次日留存<7日留存,11月26日新增的活跃用户次日留存<3日留存<7日留存,且其他日期3日留存均大于次日留存。 总体来说,留存呈现增长的趋势,反映出用户粘性在上升。
5.4 获取营收
1.时购买行为
购买人数和购买率的走势大致相似,且均呈现明显的双峰走势,其中21时购买人数最多,而10时购买率最高,应当继续保持10时的活动,加大21时的活动力度。
2.日购买行为
在12月1日之前,购买人数和购买率走势相类似,而在12月1日之后购买人数有所增加,但与之前相比购买率却在减少,商家应当优化产品本身并加大宣传推广。
3.九日复购率
0.6323078771856036 如果以0.6作为合格标准的话,说明用户忠诚度表现一般,有大幅增长空间。
4.三日复购率和回购率
–用户回购率整体高于复购率,其波动性也明显强于复购率; –用户复购率呈现先减后增的趋势,而用户回购率则是增加趋势 , 即第二周期购买用户的忠诚度较第一期高,整体说明用户忠诚度在增加。
–总的点击量中,有6.25%加入购物车,有3.24%收藏,而到最后只有2.24%购买,整体来看,购买的转化率最低,有很大的增长空间; –就颜色来看,红色部分的变化最大,即“点击-加入购物车“这一环节的转化率最低,按照“点击-加入购物车-收藏-购买”这一用户行为路径,我们可通过优化“点击-加入购物车”这一环节进而提升购买的转化率。
R:Recency(最近一次消费),F:Frequency(消费频次),M:Monetary(消费金额) 由于我们的数据集中没有消费金额相关数据,因此这里就R和F对客户价值进行分析