基于机器学习算法的直播电商用户购物行为预测模型的构建与应用

2023-10-31 08:17王坦周祺胤毛莎
湖北大学学报(自然科学版) 2023年6期
关键词:直播间购物电商

王坦,周祺胤,毛莎

(湖北大学数学与统计学学院,湖北 武汉 430062)

0 引言

近年来,直播电商作为一种新型商业模式,在增加就业、扩大内需、促进数字经济发展等方面发挥了积极作用.国家统计局数据显示,2021年社会消费品零售总额超过44万亿元,其中,直播电商市场份额占比约5%.中国计量科学研究院日前发布的《直播电商行业高质量发展报告(2021—2022)》指出,随着政策、监管的日趋完善,直播电商行业将进入持续、稳健的发展时期.

直播电商的快速发展得到了学术界的广泛关注,与此同时,消费者的影响力不断增强,这使得学界对于消费者购物行为的探究更为迫切.而综观对购物行为的研究可以看出,研究内容主要集中在消费者购物行为影响因素方面,且尚未形成统一的购物行为影响因素模型,因素的选取多具有主观局限性.此外,在购物行为预测方面的研究比较匮乏.因此,本研究将两者内容结合起来,从购物行为预测的角度出发,根据行为预测效果,验证行为影响因素模型构建的合理性、准确性,并应用此模型完成因素相关性分析.

在研究方法上,购物行为影响因素模型主要是基于S-R理论从主播[1-3]、商家[4]、商品[5-6]、情境[7]以及消费者的内在状态[7-8]等角度进行构建.在行为预测领域中,随着机器学习领域的迅猛发展,预测模型准确率不断提高,慢慢地有少数学者将机器学习预测模型用在购物行为的预测研究中[9-11],但整体研究成果不多.

基于此,本研究基于S-R理论构建购物行为影响因素模型,依据影响因素模型建立 logistic 回归模型、支持向量机模型、随机森林模型以及结合以上3种算法的融合模型,再基于调查问卷收集的直播电商用户个人信息、购物行为影响因素以及购物行为三方面信息,使用上述4种预测模型对购物行为作实证分析,验证影响因素模型构建的准确性.最后,对预测模型对比择优,选出预测效果最好的模型进行各因素的特征偏好和相关性分析得出研究结果与相关建议,推动直播电商行业持续健康、稳健发展.

1 机器学习领域预测模型

1.1 logistic回归logistic回归,又称对数几率回归,是一种广义的线性回归模型,通过对线性回归中的预测目标进行sigmoid非线性映射操作,使回归结果落于区间(0,1)内,用以实现分类预测任务.模型输出即为样本的概率分布,其中,模型自变量可以是离散型数值、连续型数值或两种混合.

1.2 支持向量机支持向量机(support vector machines,SVM)是一种主要用来解决二分类问题的有监督学习算法,它的优势在于其稳健性和稀疏性.SVM学习的基本思想是寻找最佳的分隔超平面,使得训练集上的正负样本间隔最大.

1.3 随机森林随机森林(Random Forest)是 Bagging 类的集成学习算法,该模型由多棵决策树构成,当对某一样本数据进行预测的时候,随机森林内部的每棵决策树都会自发地产生一个预测结果.对于分类问题,按照多棵树投票决定最终预测结果,对于回归问题,一般由多棵树预测值的均值决定最终预测结果.随机森林的随机性体现在数据集的随机选取和每棵树使用特征的随机选取,以上两个随机性使得每棵决策树都彼此不同,提升系统的多样性,从而提升了分类性能.

1.4 融合模型融合模型是指通过集成若干单一算法的学习结果形成新的组合模型.

由此,随着基算法的增加,融合算法的方差会降低,所以理论上融合算法模型比单个模型具有更高的分类准确率.

融合模型将所有基算法预测样本为某一类别的概率的平均值作为标准,概率最高的对应的类别为融合模型最终的预测结果.其工作原理如表1所示,假设使用Logistic回归等模型所输出的样本预测类别为A,B,C,D,E的概率分别为A1,B1,C1,D1,E1等,则融合模型最终所输出的样本预测类别为A,B,C,D,E的概率分别为(A1+A2+A3)/3,(B1+B2+B3)/3,(C1+C2+C3)/3,(D1+D2+D3)/3,(E1+E2+E3)/3,其中概率值最大的类别,即为融合模型预测的最终类别.

表1 融合模型工作原理

2 购物行为影响因素模型的构建

本研究基于S-R理论[13]构建购物行为影响因素模型,影响因素的选取则是基于顾客价值理论[14]、技术接受度模型(TAM)[15-17]、AISAS模型、光环效应等.在“S”部分选取意见领袖、品牌效应、网红效应、优质商品、社会临场感、激励机制、功能性感知价值和情感性感知价值作为刺激源;在“R”部分采用购物行为这一“反应”,构建购物行为影响因素模型(如图1所示).即消费者在“S”的作用下,产生“R”部分.

图1 购物行为影响因素模型

3 实证分析

3.1 数据来源

3.1.1 量表设计 调查问卷主要分为三部分:第一部分为调查者基本信息,第二部分为预测变量量表,第三部分为购物行为量表.

第二部分采用Likert5级量表,用1~5表示“非常不同意”到“非常同意”的递增程度.其中,意见领袖(KOL)参照了Kim,燕道成等学者的量表,共3个题项[18-19];品牌效应(BE)参照了刘平胜等学者的量表,共3个题项[20];网红效应(ICE)参照了陈品琪等学者的量表,共3个题项[13];优质商品(QG)参照了刘禹等学者的量表,共3个题项[21];社会临场感(SP)参照了谢莹等学者的量表,共3个题项[22];激励机制(IM)参照了刘平胜等学者的量表,共3个题项[20];功能性感知价值(FV) 和情感性感知价值(SV)参照了刘佳等学者的量表,分别3个题项[23].第三部分购物行为量表问题为“我在电商直播间进行购物的频率”,答案项为“没有过”“平均每月1~2次”“平均每月3~5次”“平均每月6~10次”“平均每月10次以上”五类.

3.1.2 数据搜集 本次调研选取湖北省所有常住居民作为调查对象,采用三阶段抽样.在第一阶段抽样中,采用PPS抽样法.在第二阶段抽样中,采用分层抽样与PPS抽样相结合.在第三阶段抽样中,采用方便抽样.本研究正式调研累计搜集调查问卷880份,去掉无效问卷后,获得有效问卷781份,有效率达88.75%.

利用SPSS 26.0对问卷数据进行分析,信效度检验显示,8个预测变量的信度较好,除了功能性感知价值变量的克隆巴赫α系数(Cronbach’sα)在0.60~0.70,其余均在0.70以上.KMO值为0.947,显著性概率低于0.000,表明问卷结构良好.

3.2 购物行为预测

3.2.1 模型评价指标 通过问卷数据中的各“预测变量”来预测“购物行为”,即电商直播间购物频率,共分为“没有过”,“平均每月1~2次”,“平均每月3~5次”,“平均每月6~10次”,“平均每月10次以上”五类.因此,本文中的购物行为预测是一个多分类问题,在多分类预测任务中,常用混淆矩阵衍生的准确率(Accuracy)、平均精确率(Precision)、召回率(Recall)作为模型的评价指标,计算公式为:

其中,TA、TB等表示类别A,B等预测正确的样例数,FAB、FAC等表示预测错误的样例数,如FAB表示实际为A类但预测为B类的样例数.由公式易知,准确率和平均精确率是针对所有样例而言的,反映整体的预测效果,而召回率反映各类别的预测效果,因此本研究只选取准确率和召回率作为整体和类别的预测效果的评估.

3.2.2 预测模型的构建 预测模型构建的过程为:将收集到的有效问卷通过名义变量记录为数据表,将数据记录随机打乱划分为训练集和测试集,划分比例为7∶3,并利用训练集数据分别建立logistic回归模型、支持向量机模型、随机森林模型以及结合以上3种算法的融合模型,通过5折交叉验证法选取最优参数集.最后,根据模型评价指标对4个模型进行对比择优.

三个基模型搜索超参数范围和结果见表2.通过5折交叉验证选取logistic回归模型参数集为{正则化系数=5,多分类策略:‘multinomial’},支持向量机参数集为{正则化系数=10,核函数:RBF核},随机森林参数集为{基评估器数量=100,最小分支样本=2,子节点最小样本数=1}.

表2 各模型超参数搜索范围及结果

融合模型则是使用scikit-learn库提供的VotingClassiifer模块的SoftVoting方法,选择具备最优参数集的三个模型作为基模型,通过求出基模型对各个类别的预测结果的概率的平均值,然后进行大小比较确定样本最终的预测类别.

3.2.3 4种模型预测效果对比 各模型预测效果如表3所示,将电商直播间购物频率为“没有过”人群的预测召回率记作召回率1,将电商直播间购物频率为“平均每月10次以上”人群的预测召回率记作召回率2.由表3可知,logistic回归模型各项指标的表现都最差,原因是本案例中的非线性问题不太适合用线性分类模型处理,分类准确率差强人意,但可以将其用于融合模型作为基学习器之一.支持向量机有着优秀的分类性能,且对“从未有过直播购物”人群的预测召回率最高,但对“平均每月直播购物超过10次”的深度用户预测召回率相对较低,仅83.57%.相比之下,随机森林模型分类准确率与支持向量机无明显差异,而召回率1低于支持向量机,召回率2高于支持向量机.融合模型是以上三个分类器的集大成,通过“软投票”的方式将三个原理不尽相同的分类模型结合起来,使得分类准确率达到最优,对潜在用户的召回率也最高,对“无直播购物经历”的个体召回率与支持向量机无显著差异.

表3 4种模型预测效果对比

因此,融合模型的预测效果优于单一模型,由此也可验证,影响因素模型的构建具有一定合理性,最终选择融合模型作为“直播电商用户购物行为预测”的最终模型,用于分析各因素对直播电商用户购物行为的影响.

3.3 购物行为影响因素分析预测模型是根据各特征变量与目标标签的内在关联,建立映射关系以达到预测目的.很容易想到的是,各特征变量对这种映射关系的影响程度是不同的,即预测模型对不同特征有不同偏好程度.分析模型特征偏好可以帮助了解各项特征对目标变量的影响力.在本案例中特征变量较多,若直接使用特征偏好分析,会存在误差较大、各特征间区分度不高等问题.因此,这里结合S-R模型,从宏观上分析各项“刺激”对最终“反应”的影响.再利用相关性分析方法,探究各微观因素(每项“刺激”中三个题项按照顺序作为因素一、因素二、因素三)对“反应”的影响.

特征偏好分析步骤:保留训练好的预测模型和每个特征值,每次研究一个特征(这里指“刺激”)时,对其测试样本的对应特征值进行随机shuffle(打乱重洗),然后重新计算评估指标,观察模型效果,多次重复如此打乱操作后,对模型打分取平均值.关键在于模型评估效果的下降程度,哪个特征使模型效果下降越明显,哪个特征对模型进行用户购物行为的影响就越大.

相关性分析:在建立预测模型过程中发现,各特征与“反应”之间的线性关系不是特别明显,如果使用皮尔逊相关系数,不能很好地反映各特征对“反应”的影响程度.考虑到融合模型的非线性映射效果,这里采用斯皮尔曼相关分析.同时,为更直观展现各变量间相关关系,需要对相关性强的变量进行可视化.这里将采用小提琴图(Violinplot)作为补充描述基础数据的分布.

对融合模型的特征偏好分析如表4所示.从实验结果看,感知价值中的功能性价值对直播电商购物用户行为的“刺激”最大,其次为社会临场感,感知价值中的情感性价值,网红效应,品牌效应,激励机制,意见领袖以及优质商品.

表4 各刺激对预测准确率的影响

模型的特征偏好结果有着很强的现实可解释性.进入电商直播间并进行购物行为的用户,往往带有较强的目的性,能从直播中获得价值,是他们愿意参与其中并消费的最重要的原因,因此感知价值(尤其是功能性感知价值)对直播电商用户的行为影响最大.电商直播间购物与传统的线上购物方式相比,最大的区别在于购物时的临场感,能否全方位展示商品信息、能否与主播互动交流等问题,是影响用户行为的又一大因素.同时,网红直播、品牌效应、直播间的激励福利等刺激,也在很大程度上刺激用户做出购买决策.

各项“刺激”内的微观因素与“反应”的斯皮尔曼相关系数如表5所示,所有变量间相关系数均通过95%置信水平的显著性检验.不难发现,在所有“刺激”中,与电商直播间用户购物频率这一“反应”相关性最强的因素,基本集中在“因素一”,个别在“因素二”,而“因素三”的相关性普遍不强.这是由问卷设计引起的,每项“刺激”中的调查问题层层递进,受访者在回答“因素三”的问题时常持有保守态度.

表5 各“刺激”内微观因素与“反应”的相关系数

从结果看,功能性感知价值中“直播间产品正好满足需求”这一因素与“反应”(用户购物频率)的相关性最强;在社会临场感中“电商直播中能与主播互动”这一因素与“反应”的相关性最强;在情感性感知价值中“观看直播电商能获得满足感”这一因素与“反应”的相关性最强;在网红效应中“用户更青睐网红推荐产品”这一因素与“反应”的相关性最强;在品牌效应中“用户更期望购买品牌爆款”这一因素与“反应”的相关性最强;在激励机制中“直播电商限量商品”这一因素与“反应”的相关性最强;在意见领袖中“直播电商的可靠性”这一因素与“反应”的相关性最强;在优质商品中“直播电商产品的良好质量”这一因素与“反应”的相关性最强.鉴于某些“刺激”因素与“反应”的相关性整体较强,但在融合模型特征偏好中排名相对较低,如意见领袖相比社会临场感,其整体与“反应”的相关性较高,但在模型特征偏好中却不如后者,推测原因为这些“刺激”与感知价值存在高度相关性.特征偏好中排名前三的“刺激”各自的最大影响力因素,与直播电商用户购物频率的相关性可视化见图2.

图2 前三“刺激”内微观因素与“反应”的小提琴图

4 结论与建议

4.1 结论通过使用logistic 回归模型、支持向量机模型、随机森林模型以及结合以上3种算法的融合模型进行实证分析,发现融合模型的预测效果优于单一的模型;各项“刺激”都对购物行为有明显正向影响作用,其中,“功能性感知价值”对购物行为的正向影响作用最大,其次为社会临场感、情感性感知价值.

4.2 建议

4.2.1 注重功能性感知价值,满足用户需求 主播和商家应注重直播电商用户对于功能性价值的感知,注重把握和挖掘用户的需求,与此同时,在直播过程中重点突出产品的实用性和功能性,以满足用户群需求为目的提供产品和服务.例如,提前搜集一些用户需求,在直播间里展示相应地产品功能,讲解迎合需求的设计亮点和改动点,将商品价值真实反馈给用户,这会让用户对商家产生很强的认知.同时在直播过程中,也可以通过评论收集用户需求,从而为用户呈现多样化的商品,满足用户多样化需求.

4.2.2 增强社会临场感,提高用户粘性和潜在营收增量 电商直播中,想要培养忠诚用户,就必须让直播间的观众与主播产生互动.例如在直播过程中可以开放专门的提问时间,或者在一些灵活的节点跟用户互动.此外,主播也可以在直播间现场试用产品,分享使用体验与效果,提升用户的信任度,提高用户粘性.而且直播所特有的实时互动性,可以实现商品到用户的高效触达,大大缩短了用户的决策时间,可以刺激消费需求的产生,提升潜在营收增量.

4.2.3 提升情感性感知价值,获取用户信任 购买过程的愉悦感将直接影响消费者购买意愿,应关注直播过程中消费者的体验,塑造良好的品牌形象,打造良好的直播氛围,进而提升消费者的情感性感知价值.输出用户真正关心、能切实为他们提供帮助的内容,才能获取用户的信任.例如,科普相关领域知识,纠正一些用户理念上的误区.如果用户有需求或潜在需求,将确实能够了解到一些新知识.此外,要保持始终如一的诚信,专做一件事,那就是把服务和质量做到最好.

猜你喜欢
直播间购物电商
电商助力“种得好”也“卖得火”
“羲和号”开直播间
电商赢了,经济输了
我们为什么选择网上购物?
我们的直播间
小鬼进军直播间
进军营直播间
电商鄙视链中的拼多多
圣诞购物季
快乐六一,开心购物!