淘宝APP用户行为数据分析案例

一.分析背景与目的
1.1背景与数据限制
电商平台的最核心的功能就是为买卖双方提供高效和体验良好的交易服务。得益于算法技术的发展,淘宝APP给买方提供了搜索、推荐及广告等系统和功能,使用户能高效地触达感兴趣或有购买意愿的商品。上述系统和功能来源于海量的用户行为数据,而此后的数据变化又反馈到系统中,不断提升系统和功能的能效。此外,对于其他的如优惠活动,购物节,APP改版等运营行为,也能通过用户行为数据表现来衡量优劣。
本案例使用的数据集有相当的限制:时间维度限制在9天内,商品数据经脱敏,行为数据只有4种。以下分析内容都在此数据集的限制范围内开展。
1.2核心业务描述
1.2.1核心功能
淘宝作为商品交易平台,对于用户群体,核心功能为用户高效、优质的购物体验,并且尽可能让用户被动接触到有潜在购物意愿的商品。
1.2.2用户侧核心指标
根据淘宝APP的核心业务,用户侧的核心指标要能有效反映用户的量、粘性、使用频率和购买转化。
1)流量类:
访问数:pv,当日淘宝APP的页面访问数
用户数:uv,当日在淘宝AAP产生数据的去重用户数
活跃用户数:active_user,当日在淘宝APP上产生超过3次行为数据的用户数
交易用户数:buy_user,当日在淘宝APP上产生购买行为数据的去重用户数
2)比例与均值:
活跃用户比例:日活跃用户/日uv
交易用户比例:日交易用户数/日uv
用户pv日均值:日pv/日uv
9天内用户访问天数:统计9天内,用户有多少天活跃
1.3 分析用户行为的目的
1.3.1用户行为的定义
用户在使用淘宝APP时发生的行为动作,包括以上数据集的四类,以及取消收藏/清空购物车/搜索/关注店铺等情况,由于数据局限性,在此仅分析数据集中的数据行为。
1.3.2分析数据用户行为目的和意义
1)分析指标和结果可用作监控日常业务;
2)指标分析或进一步的下钻分析,挖掘业务增长点;
3)数据可用作训练集,指标和结果可用作为检验推荐系统,搜索系统及广告系统性能的指标之一。
备注:上述提到的挖掘增长点,围绕1.2.2的核心指标进行,即增加用户粘性,促进用户交易。
1.4主要分析思路
根据上述,,案例的分析应主要围绕三个目的和两个核心业务开展,如下图
但由于数据集的限制,提升和检验方面也受到很大限制

二.数据集来源及理解
2.1数据来源
阿里天池官方数据集:User Behavior Data from Taobao for Recommendation
2.2数据特征
2.2.1总体描述
数据时间范围:2017-11-25至2017-12-03
文件类型:csv
文件大小:0.9G
数据表shape:1亿行,5字段
2.2.1字段描述
user_id:整数类型,序列化后的用户id
item_id:整数类型,序列化后的商品ID
category_id:整数类型,序列化后的商品所属类目ID
behaviour_type:用户行为,分成四类:
1)pv:商品详情页pv,等价于点击
2)buy:商品购买
3)fav:商品收藏
4)cart:商品加入购物车
timestamp:行为发生时的时间戳
2.3理解数据
1)数据集具有较大局限性:如时间短,无地域因素、商品id经脱敏等;
2)比较有分析价值的是行为与时间这两个维度
三.数据清洗
由于笔记本电脑内存不够,将数据集分成10份后,用其中1份进行统计分析,将所有代码封装好后跑其余的数据再合并就可以了。
3.1读取数据

3.2查看数据类型和缺失值


3.3异常值处理:
1)将timestamp转化成北京时间,并筛选出11月25日至11月3日的数据,被筛掉的数据约有5.5千条,只有总体数据的0.055%
2)behaviour-type中没有异常值
3.4数据清洗小结:
淘宝官方给出的数据集很干净,只有极少部分数据时间字段有异常值。
四.数据分析
4.1关键指标分析
4.1.1日均用户指标

4.1.2日均用户比例指标

4.1.3用户活跃天数分布

4.1.4关键指标小结分析
1)APP的日均用户较为稳定,曲线从12月2日起大幅上升,较大可能的原因是双12系列活动开始,后续可单独分析这几天的各项转化率。
2)日均活跃用户比例和日均购买用户比例相对稳定在79%和19%,推测可能是方差较小的正态分布,后续可手机长时间数据范围内的数据进行验证,用于假设检验业务是否出现异常。
3)12月2至3日用户数上升了32.3%,但活跃比例和购买比例分别下降了3.2%和6.7%,(数据由后两天均值除以前7天均值得出),说明由于活动吸引而来的用户,购买比例并没有比平时的用户高,建议在引流时要更加精准。要说明这几天数据的好坏,还要等到整个活动结束后复盘分析。
4)在9天的数据范围内,超过90%的用户9天内活跃超过两天,用户粘性高,后续可用周活跃天数比例来监控用户粘性的高低。
5)上述指标均可作为平台业务监控指标,当指标数据异常时(异常好/异常坏),分析人员都应该深挖异常的产生原因,从而增长业务,或避免问题再次发生。
4.2用户行为路径分析
单纯的转化漏斗图在此场景下会过于简化,参考意义不大,数据的4个行为可组合成16个路径,可清晰地区分用户路径行为。
4.2.1用户行为路径
数据根据用户id、商品id和行为去重后赋值计算得出,因此数据会少了用户复购的情况,核实后复购9天范围内同用户同商品的复购订单数为5单,影

本案例通过对淘宝APP9天内的用户行为数据进行分析,揭示了用户流量、活跃度、购买转化等核心指标。数据集虽有限,但展示了用户在搜索、购买、收藏和加入购物车等行为上的模式。分析指出,19:00-24:00是访问高峰,购买转化率在收藏和加入购物车后较高。建议通过用户行为路径优化运营策略,提升用户体验和转化率。
5880

被折叠的 条评论
为什么被折叠?



