●刘瑞琪 宋子琨
数据是生产的关键要素之一,它已经渗透到各行各业的功能领域。大数据又称海量数据,主要是指其中所包含的数据规模庞大且结构复杂、从而无法通过传统的方式将信息转化为可以直观理解的数据信息。因此,通过对大数据进行处理和分析,进一步挖掘出更深层次的价值并加以利用,将显著提升企业的决策能力。
近年来,我国正在全面利用大数据等信息技术推动传统产业的结构转型与发展,实现新的经济增长点及各产业间的融合发展。随着移动互联网的迅猛发展,各类电商平台的运营逐渐趋于成熟,商家及用户数量庞大、商品种类繁多,当消费者在网购平台浏览商品时,大量无用商品的推荐无疑将会降低消费者的购买率。因此,运用大数据技术建立对用户行为进行分析的推荐系统,挖掘用户行为特征并进行个性化的商品推荐,从而有针对性地唤回老用户并吸引新用户,不仅可以降低用户的选购时长并提高用户对于网购平台消费体验的满意度,还可以增加商家及网购平台的收益。
基于此,本文利用天猫商城的真实消费数据,使用RFM模型与K-Means聚类分析对天猫用户进行价值分类,从而为不同用户提供个性化服务,实现了基于用户分类的精准营销。
本文的数据来源为天池平台提供的天猫商城的真实消费数据,该数据集中包括了用户基本信息数据、用户消费数据及用户购物行为数据3个部分,涵盖了2018年4月1日至2019年3月31日期间在天猫平台购买商品的用户数据,共计539438条。其中,用户基本信息数据集中主要记录了性别、年龄层次、消费档次等字段;用户购物行为数据集中主要记录了商品种类编号、消费者行为类型和订单日期等字段。
在数据处理阶段,本文对数据进行去除重复值、处理缺失值、特征选择等预处理。第一是将字符型格式等日期字段转换为DateTime类型,并计算用户购买时间与2019年4月1日的时间间隔。第二是使用timedelta类型属性的days方法实现诸如“1”“2”等天数的提取。第三是筛选行为类型为“pv”的记录,再根据日期分组排序,并统计每天对应的购买记录数量,即从用户购物行为数据集中,筛选behavior_type字段等于“pv”的记录,按照date字段分组同时进行升序排列,并计算出每日进行消费的用户数量。
1.基于RFM模型的用户价值分析。RFM模型通过消费时间间隔、消费频率、消费金额3个指标对消费者的活跃度进行分层,从而实现对用户价值的评估。其中,指标R代表最近一次消费(最近一次消费到截止时间的间隔),可以类比为消费者近期的活跃度;指标F代表客户消费频率,用以反映用户近期的购物次数;指标M代表消费金额,用以反映消费者的消费能力。综上所述,RFM模型就是对每一个用户都从R、F、M三个维度进行评估,并据此将用户划分为重点潜力用户、重点发展用户、重点唤回用户、高价值用户、低价值用户、一般发展用户、一般维系用户和一般价值用户等八类。
本文在将数据引入RFM模型前,为了进一步了解用户的消费习惯、消费行为及用户本身的特性,首先根据用户的购买行为进行数据分析与探索,计算用户在各流程之间的漏斗模型,研究发现用户在最后实际下单的流程中流失最多(见图一、图二)。
图1 加购漏斗图
图2 收藏漏斗图
接着,本文采用五分法(0.2、0.4、0.6、0.8)对经过预处理后的R、F、M数据进行分箱处理,将用户等分为5个层级,分别标记为1-5分并赋予每一个用户其相应的分类标签,据此便可以有针对性的进行符合此类用户特征的精准营销,同时实现了平台资源的利益最大化。
经数据处理后,天猫商城用户消费数据集中的用户被分为8类,其中高价值用户占比为21%,此类用户为平台的核心用户,因此需要保证该类用户的留存率,即可以分析此类用户的行为特征或进行用户访谈,了解产品对于此类用户的吸引力和平台有待优化的问题。重点唤回用户占比为14%,此类用户过去在平台上消费较多而最近并未产生消费,此类用户在产品中有一定财富积累,但最近没有消费可能是受竞品影响或消费习惯发生改变,因此需要根据用户历史偏好,推送个性化内容从而唤回此类用户。重要发展用户和重点潜力用户人数较少,占比仅为6.2%左右,此类用户在平台的消费次数较少但是在金额上贡献较大,说明用户一旦活跃就会大笔消费,因此需要提高此类用户在平台的活跃度。值得注意的是,低价值客户占比为41.1%,在各种用户类型中占比最大,此类用户具有较大的流失风险,但可以不将其作为平台的运营重点。
2.基于K-Means聚类的用户价值分析。K-Means算法是一种基于数据划分的无监督聚类算法,它以k为参数,把n个数据对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。由于RFM模型只涉及了天猫用户消费数据集中order_count、time_gap、total_amount等变量,然而通过上述变量并不能充分挖掘用户特征,因此本文使用K-Means聚类方法将其他变量引入,从而对用户特征进行进一步挖掘。
由于K-Means算法中的随机因数将导致每次运行结果都存在差异,本文为减少结果的偶然性,对每个k值重复计算了10次并对比每次计算结果的趋势图,选择最明显的拐点所对应的k值。受篇幅所限,本文并未报告拐点的趋势图,但计算结果显示k=3时满足要求,因此确定用户被分为3类。接着,本文通过选取刻画用户的重要指标,用户的id、用户的年龄及用户的购物深度以及性别这4个重要指标,将数据进行标准化,并通过K-Means聚类得到聚类后的3类。
K-Means聚类结果与RFM模型分类结果较为相似,其中聚类结果为一类的用户特征较为明显,此类用户多为女性,购买频次较高且消费金额较大,因此一类用户为高价值用户,其用户数量为27347人,占比为53.21%;聚类结果为0类的消费群体年龄段较高,具有购买频次多但消费金额较小的消费行为特征,因此0类用户为中价值用户,其用户数量为13110人,占比为25.51%;聚类结果为二类的消费者中各指标均相对较低,因此二类用户为低价值用户,其用户数量为10937人,占比为21.28%。
运用大数据的技术建立用户推荐系统,挖掘用户行为特征并进行个性化商品的推荐,不仅可以降低用户的选购时长并提高用户对于网购平台消费体验的满意度,还可以增加网购商家及网购平台的收益。本文利用天池平台提供的天猫商城的真实消费数据,首先对数据进行了相应的预处理,最终数据集中包含51394条购买记录,接着分别基于RFM模型和K-Means聚类方法实现了对天猫用户的分类,从而为平台为用户提供精准营销提供了相应建议。
RFM模型的分析结果显示,重点发展客户占比5%,高价值客户占比22%,应重点关注这两类客户并提高用户付费率,维系高价值用户、重点发展用户的忠诚度,保持企业良好收入。在客户总数中占比为21.9%的高价值客户和占比13.8%的重点发展客户贡献了85.8%的销售额,因此,应当提高高价值客户和重点发展客户的消费金额,或是把重点发展客户转化为高价值客户,即提升该客户群的消费频次。重要挽留客户为1090人,首先应当考虑是否在计算周期内有大型促销或降价活动,若有则转化这部分客户的难度会较大,平台应重点发展其他类型客户,若没有则应当分析此类顾客的购买产品的特性从而提高其消费频率并培养其在此平台的消费习惯。新客户人数为2143人,由于需要先把新客户转化为留存用户,因此,在实际运营过程中,可以考虑把这部分客户和重要挽留客户放在一起转化,提升消费频率。流失客户人数为1400人,对于销售金额的贡献占比较低,因此,需要进一步分析此类用户群体的消费商品和消费时间,但由于此类用户人数较多,对其进行分析耗时较长故可将其作为提升销量的次要考虑因素。重要唤回客户人数占比约为12%,此类用户人数较少,但消费意愿和消费价值较高,可作为短期提升销量的重点关注对象,通过运营活动,优惠活动刺激消费。
K-Means聚类分析的结果显示,聚类结果中消费能力高,购物深度与层次较高,年龄指数较小,性别指数较大,这部分群体可能多为年轻女士,比较追求时尚、品牌及服务,对于此类在平台有消费记录且过往消费频率和金额较高的用户,属于具有较高价值的核心用户,本文认为可以为这类用户提供VIP特权和更多的专属服务,后续还可以对客户追根溯源,找到高价值用户对应标签的客户的个人信息,重点关注此类用户的行为路径或者对其开展用户访谈,了解产品的优势及反馈。针对近期活跃度较低、过往消费频率和金额都较高的用户,需要将其进行唤回并重新成为平台的核心用户。此外,还应当提高一般维系用户、一般发展用户的活跃度,并将其转化为潜在客户。