邢绍艳 朱学芳
(南京大学信息管理学院,南京,210023)
网络直播是一种借助互联网信息技术发展起来的新的内容呈现形式,支持音频、视频、图文等多种信息形态的实时传输[1],具有强互动性和高转化性等优势。知识直播依附于网络直播的技术手段,实现知识生产主体与知识接收主体之间的即时互动,不同于电商直播、游戏直播,知识直播具备独特的知识和教育属性,打破了传统的知识静态展现的单一传播模式,支持多方互动与交流,营造共同学习的良好氛围。国内影响力较高的付费知识直播平台有千聊、知乎Live、美时美客、荔枝微课等;国外有OpenEnglish、LiveEdu、CreativeLive等,常见付费形式包括按时间长度付费、周期订阅式付费、单次付费。
在经历了2016年的概念风口和2017—2020年的发展积淀后,付费知识直播行业整体增速下降,逐渐步入平复、梳理的冷静期,各类付费知识直播平台均出现了用户访问率下滑、活跃度下降的趋势,其内容质量参差不齐、贩卖焦虑等弊端日益显现,导致付费知识直播平台新用户增加缓慢、老用户复购率低、流失率高,这些问题一直困扰着知识付费平台和知识付费产品提供者,而用户持续付费是充分发挥知识商业价值的前提条件,是知识付费市场稳定发展的原动力。因此,探寻在线知识付费用户流失的内在机制,建立高效、可靠的用户流失预警体系对于知识付费市场的稳态发展具有巨大作用,是充分发挥知识付费市场商业潜力的重要保障。
通过对相关文献的梳理与归纳发现,现阶段学者们对知识直播平台或产品的细分研究关注度较低,研究成果较少,已有研究也局限于平台商业模式与发展策略、用户行为研究两大方面,少有研究关注其用户流失问题。例如,在针对平台的研究中,赵鑫等[2]从传播、运营、宣传模式三方面分析了国内外知识直播平台内容创业的异同,并为国内知识直播平台的发展指明了方向;齐托托等[3]构建了付费知识直播产品描述的语言风格对产品销量影响的理论模型,并采集知乎Live数据验证假设,协助平台重新定位产品描述在营销中的作用;蔡舜等[4]基于信号理论构建了Live讲座销量影响因素模型,并基于知乎Live运营数据验证假设。在针对用户的研究中,赵杨等[5]基于社会资本理论构建知识直播用户付费行为影响因素模型,并爬取知乎Live数据验证模型;邓胜利等[6]以知乎Live用户的社会交互行为数据为依托,研究不同类型、不同程度的交互行为对预测用户付费行为的贡献度;张莉曼等[7]设计了知识直播平台群体画像概念模型,使用密度峰值聚类算法对知乎Live付费用户进行了群体划分。
现阶段用户流失预测研究多基于用户个人基础信息、用户行为记录与交易记录选取用户流失的关键特征因素,运用机器学习算法建立分类或回归预测模型,用于新用户样本的流失预测。目前用户流失预测研究主要集中在电信[8-9]、金融[10-11]、电子商务[12-13]等领域,在音乐流媒体[14]、移动图书馆[15]、社交媒体[16]等具体场景下也有一定应用,有着重要的学术价值和商用前景;用户流失预测的具体研究内容主要是针对特征选择[8-10]及预测算法[12,17]进行优化,以得到更高的预测准确度、更优的泛化性能为目的。
机器学习算法可以从大量经验数据中学得某种潜在规律,并致力于提高新样本的适用性,获得具有强泛化能力的模型,因而受到广泛青睐。现阶段用户流失预测使用频率较高的机器学习算法有逻辑回归[17]、BP神经网络[18]、支持向量机[19]、朴素贝叶斯[20]、决策树[17]、AdaBoost[21]、GBDT[21]、XGBoost[22]、随机森林[23]等。
现阶段用于流失预测的用户关键特征数据多由网络爬虫或平台数据库直接采集得来,主要涉及用户人口统计学信息、日志行为及交易信息,少有研究将用户评分及评论文本中的情感因素纳入流失预测体系,而用户评分可以直观表达用户对知识直播的体验评价,用户评论则更开放自由,蕴含了丰富的个人情感。因此,本研究基于文本情感分析技术分析用户评论,识别用户的积极与消极情感,与用户打分结合,应用于用户流失预测。
鉴于以上分析,本研究从用户价值特征和用户评价特征(评分与评论情感)两方面切入,采集付费知识直播平台用户数据,发挥机器学习算法在分类预测方面的优势,通过实证研究探索基于机器学习的付费知识直播用户流失预测模型,比较不同模型在本研究场景下的准确率,选择最优预测模型。与此同时,为探究更深层次的付费知识直播用户流失行为,对预测用户流失的各个特征变量进行重要性排序,划分流失用户类型,为用户留存管理提供决策依据。
RFM[24]模型包括消费近度(recency)、消费频率(frequency)及消费金额(monetary)三项指标。在现有研究中,该模型多用于综合考量用户活跃度、忠诚度及消费能力,进一步实现用户价值识别与价值群体细分。一般认为,最近一次消费时间间隔较短、近期消费次数及金额较大的用户对产品及服务的认可度较高,因此流失倾向较低;反之,最近一次消费时间间隔较长、近期消费频率及金额较小的用户有较高的流失倾向,对平台的价值也较低。
目前,RFM模型已经在用户流失预测方面有了一定的应用[25-26]。本研究在RFM模型的基础上加以修正,引入首次参与付费知识直播距今的时间间隔L(length)表征用户关系长度,根据罗亮生等[27]、朱雅彬[15]及张莉曼等[28]的研究可知,用户关系长度影响用户忠诚度评价,即用户关系长度越大,表示用户接触付费知识直播平台的时间越长,从而积累了更多的使用经验,相较于用户关系长度较短的用户有较低的流失倾向。因此,将该指标作为传统RFM模型的补充与拓展,构成RFML模型,从而较为全面地衡量用户价值特征,更加精准地对用户流失倾向做出预测。与此同时,本研究将RFM模型中的总消费金额改为次均消费金额,旨在消除消费频次与总消费金额之间的线性关系对用户价值评估所造成的影响。
本研究情境下的用户评价具体是指用户在参与付费知识直播后,在评论系统中针对直播内容、主讲人及平台给出的数值及文本形式的评价。数值或星级式打分简练直接,操作便捷;文本评论因其开放性与自由性,可以更为细致全面地表达用户的知识付费服务感受,是用户情感、态度的体现。评论文本情感倾向越积极的用户,知识服务满意度越高,持续付费的可能性越大,流失风险越低;反之,评论文本情感倾向越消极的用户,满意度越低,持续付费的可能性越小,流失风险越高。因此,剖析评论中隐含的个人情感,并将其融入用户流失预测模型具有一定价值。
文本情感分析[29]是对主观文本进行分析和量化的计算研究。现阶段已有不少学者以用户评论为对象展开研究,如郑丽娟等[30]以手机评论为对象,基于本体理论展开情感分析,进而推断用户对产品的认可程度;冯坤等[31]构建生鲜电商领域专有情感词典,制定评论文本情感的计算规则,并将其作为判断顾客满意度的依据。
文本情感分析主要基于词典[32-33]或机器学习[34-35]方法展开。鉴于付费知识直播用户评论多为短语、句子级文本,文本长度较短,与复杂的基于机器学习的方法相比,基于词典的方法可以快速准确地进行情感量化,因此本研究采用词典的方式实现情感分析。
本研究以大连理工大学情感词汇本体库[36]为基础情感词典,在该词典中,每个情感词的极性分为0-中立、1-积极、2-消极三类,每个情感词的初始情感强度被设置为1、3、5、7、9五个等级,相较其他词典而言,强度划分得更为细致。为便于后续计算,本研究将1、3、5、7、9五个等级的情感强度分别赋予1、3、5、7、9分的分值,并将代表消极的极性值修改为-1。情感词的情感值量化方式见式(1):
word_sentiment=polarity*degree
(1)
其中,word_sentiment表示情感词的情感值,polarity表示情感极性,degree表示情感强度。
为了使情感值计算更加准确,需要提取评论中较高频的情感专有词和一些常用的网络流行用语等,并对其标注情感极性与强度,构建付费知识直播领域专有情感词典,进而结合通用情感词典,形成付费知识直播领域情感词典。
鉴于程度副词、否定词对情感词情感强度及极性的影响,需要制定合理的规则加以修正。本研究参考王敏等[32]的研究,以《〈知网〉情感分析用词语集(beat版)》[37]中的189个程度级别词语为基础,将“极其/最”“很”“较”“稍”“欠”这五组程度词分别赋予不同的权重,表征其对极性加强或减弱的程度。在情感词的上下文中设置一个大小为5的检测窗口,在情感词原始情感极性与强度的基础上乘以检测窗口内程度副词及否定词对应的权重,具体权重设置及部分词语示例见表1。
表1 程度副词、否定词词语示例及对应权重
综合上述规则,每条评论文本的情感值计算方法见式(2):
word_sentimenti
(2)
其中,text_sentiment表示评论文本情感值,n表示情感词个数,p表示否定词个数,weightadv表示程度副词权重,word_sentimenti表示第i个情感词的情感值。
用户流失预测问题的本质是二值分类问题,分类的核心在于分类算法的选取。现阶段使用频率较高的机器学习分类器介绍见表2。其中,多分类器系统通常可以获得比单分类器更优越的泛化性能[38-39],因此受到越来越多学者的青睐。
表2 常用机器学习分类器介绍
为了选择最合适的机器学习算法用于付费知识直播平台用户流失预测,本研究分别基于决策树、支持向量机、朴素贝叶斯、卷积神经网络、XGBoost、随机森林六种机器学习算法构建分类模型进行对比实验,筛选出综合表现最优的模型。
本研究基于二分类问题的混淆矩阵选取评价指标对付费知识直播用户流失预测模型进行综合评价。混淆矩阵如表3所示。
直观分析二分类模型优劣最常用的性能曲线有ROC(Receiver Operating Characteristic)曲线与PR(Precision-Recall)曲线,但是当样本数据极不均衡的情况下,PR曲线对数据不平衡更加敏感,更能反映数据不平衡条件下分类器的性能优劣,而在本文的研究背景下,付费知识直播平台中流失用户远少于非流失用户,样本分布极不均衡,因此PR曲线相比ROC曲线更适合评价模型效果[40]。其中,PR曲线的纵、横坐标分别为精确率(预测为流失的用户中实际流失用户的比例)与召回率(实际流失用户中被正确预测的比例)。由于PR曲线不便于直观、定量地评价分类器的性能,因此,以PR曲线下方的面积AUC(Area Under Curve)作为数值化的评价标准,AUC值越大,说明分类器性能越好。
表3 混淆矩阵
付费知识直播平台用户流失预测模型框架见图1。
图1 付费知识直播平台用户流失预测模型框架
本文的研究数据来源于知识直播语音互动平台“知乎Live”。在知乎Live中,事先通过资格审核的主讲人可以创建自己的Live直播并设定价格,然后感兴趣的用户购买后便可在对应时间参与直播。目前知乎Live的知识直播内容涵盖科学、财商、文学、艺术、社科等领域,学习门槛较低、受众较广。
本研究使用Python语言编写爬虫代码,收集知乎Live用户的两部分数据:第一部分是用户价值特征数据,包括用户最近一次参与付费知识直播的日期、平均每月参与付费知识直播的次数、平均每次付费金额以及首次参与付费知识直播的日期;第二部分是付费知识直播用户评价,包括针对主讲人、知识直播内容、平台服务等给出的评分与评论文本。其中用户价值特征数据无法直接爬取得到,需要先爬取用户动态列表中的付费Live行为记录,采集每次付费Live行为对应的日期及付费金额,然后进行简单统计及计算,得到用户首次、末次参与Live的日期、参与总次数及付费总金额,进一步计算得到月均消费次数、次均消费金额、用户关系长度。部分数据爬取结果见表4,变量具体说明见表5。
表5 变量说明
对获取的样本数据进行清洗,删除包含无实际意义字段的样本(如评论文本仅由若干标点或数字组成),最后共保留3123个用户样本。
基于初步调研及付费知识直播平台用户使用行为特性,本研究将用户流失时间阈值设定为180天,即若某付费知识直播用户在最近的180天内没有发生购买行为,则将其判定为流失用户。按此规则对用户流失情况进行标注,1代表流失,0代表非流失。
在实际情况下,付费知识直播平台中的流失用户比例远小于非流失用户,导致这两个类别的样本分布不均衡,会影响分类器的分类效果,因此本研究基于SMOTE[41](Synthetic Minority Oversampling Technique)这一合成少数类过采样技术进行数据采样,解决训练数据集样本不均衡问题,降低数据类别比例不平衡对分类器性能的影响。
表4 数据爬取结果(部分)
(3)
其中rand(0,1)表示(0,1)内的随机数。以k=5为例,SMOTE算法图示见图2。
图2 SMOTE过采样
首先对文本数据进行降噪处理,具体包括将部分繁体中文转换为简体中文、去除用各种线条及特殊符号组成的颜文字表情、将语句中的个别英文单词如good、nice、great等转换为中文、将语句中的个别拼音如hao(好)等转换为相应文字。本研究借助Python中的Jieba中文分词模块编写程序对得到的评论文本进行断句、分词、停用词过滤与词性标注。
本研究对评论分词结果中具有显著情感倾向的词语进行人工筛选,依据大连理工大学情感词汇本体库的标识格式,对其极性及强度进行人工标注,得到付费知识直播领域的补充情感词典,部分示例见表6。
最后基于完整情感词典及3.2节中的计算步骤,得到评论情感量化分值。
5.4.1 模型训练与测试结果
本研究以四个用户价值层面特征(近期消费时间间隔、月均消费次数、次均消费金额、用户关系长度)以及两个用户评价层面特征(评分、评论文本情感)为全部特征变量。对所有变量下的数据进行标准化处理后,采用分层划分的方式,取30%的流失样本和30%的非流失样本共同作为测试集,将剩余的各70%的样本经过SMOTE处理成为平衡样本,作为训练集,分别基于决策树、支持向量机、朴素贝叶斯、卷积神经网络、XGBoost、随机森林六种机器学习算法构建预测模型,采用十折交叉验证的方法对预测模型的性能进行评价。本研究涉及的预测模型的建立、训练与测试借助sklearn、xgboost开源机器学习工具包,在Python3.7.6及PyCharm 2019.3.2(社区版)上实现。
表6 扩充情感词示例
首先,为了验证在用户价值特征的基础上融合评分与评论文本情感特征用于用户流失预测的有效性,本研究在两种不同的数据集上进行对比实验。数据集1为付费知识直播用户价值特征下的数据,数据集2为全部特征数据。分析数据集1与数据集2在同一机器学习模型上的表现差异,PR-AUC值计算结果见表7。由表7可知,数据集2下的PR-AUC均在不同程度上高于数据集1,平均提升6.98%。也就是说,在付费知识直播用户流失预测问题上,融合评分与评论文本情感特征的预测模型的效果更优,评分与评论文本情感特征在用户流失预测中的重要作用得到了验证。其次,在融合全部特征变量的前提下,对于单分类器模型,朴素贝叶斯算法和决策树算法相对比其他算法效果最差,卷积神经网络和支持向量机算法效果相当;对于集成学习模型,XGBoost算法的效果最好,随机森林次之,两者均优于单分类器模型,且比单分类器学习模型的PR-AUC值平均高出18.06%(XGBoost)、10.32%(随机森林)。以上结论说明XGBoost算法在付费知识直播用户流失预测这一应用场景中具有最优的分类能力。
表7 不同模型PR-AUC值对比
5.4.2 特征变量重要性
基于上述训练得到的XGBoost模型,还可以在其训练过程中识别和判定各特征变量在用户流失预测中的贡献度大小,输出特征变量重要性排名,进而对关键特征变量展开分析。本研究以各特征变量在所有决策树中的平均增益为重要性评估指标,平均增益越大,重要性越高。借助sklearn模块中的feature_importances_()方法,计算并输出各特征变量重要度及排名,如图3所示。
由图3可知,对用户流失预测贡献最大的特征变量为月均消费次数,比较符合日常经验和常识,即一般用户平均每月付费参与知识直播的次数越多,说明用户粘性较大,流失风险较低。其中,前两名特征变量的重要度之和为61%,前三名特征变量的重要度之和为79%,前四名特征变量的重要度之和为93%,且各特征变量重要度分布较为均衡,既没有出现重要度过大的特征变量,也没有出现重要度为0的特征变量,说明本研究提取的特征变量具有一定合理性,可以很好地对用户流失情况作出预测。
图3 特征变量重要度
5.4.3 流失用户类型及留存策略
根据以上几个关键特征因素,借助K-Means聚类帮助探寻付费知识直播流失用户间的相似性,以此形成不同的流失用户群组,便于针对不同的流失用户群组提出个性化的留存策略。K-Means聚类是按照样本之间的距离大小,将样本集划分为若干个群组,让组内的点的距离尽量小,而让组间的距离尽量大。本文借助SPSS 21.0提供的K-Means聚类功能完成这一步骤,最后得到四个流失用户群体。聚类中心点是各群组的中心,可以作为群组的代表。通过对比分析各群组中心点各特征因素上的取值(见表8),可以分析各流失用户群体差异化的属性特征。
表8 各流失用户群组中心点
(1)试用型用户(群组1)
此类用户占比约为22%,是一个规模不小的流失群体,其显著特征是用户生命周期较短,平均在24天左右,即用户在初次参与付费知识直播后的较短时间内就会迅速流失。这说明付费知识直播产品在试用期的快速体验阶段缺乏第一眼就抓住用户的能力,无法在第一眼试用阶段吸引用户,导致用户未能对产品的价值和功能有基本的认可,消费需求还未能被激发出来,就已经抛弃了该产品,造成大量用户流失。因此,应高度重视用户与付费知识直播平台的第一次接触,优化界面设计;突出知识直播的功能亮点,帮助新用户在第一时间轻松匹配满足自身需求的直播讲座;设计人性化的新手任务,帮助用户在简单易学的操作中轻松理解和掌握查找及购买直播讲座的交互界面与操作流程,使用户快速感知付费知识直播产品的易用性、有用性。
(2)注重使用体验型用户(群组2)
此类用户占比较多,约为26%,其显著特征是用户评分较低,评论文本情感较为消极,即用户满意度不高,导致用户流失。其中,评分低于3分的用户群体的流失率约为63%,显著高于评分大于3分的用户群体的流失率。这说明在用户全面体验和感知付费知识直播产品及服务的细节后,未能实现预期的知识或技能方面的自我改善需求,感知实用价值与预期不符,继而未能产生持续付费的内生动力,坚持付费或者持续获得技能的意向弱化,最终放弃付费参与。因此,要致力于提升知识直播产品的品质与内在效用;知识直播讲座简介、用户评论与讲师简介是用户获取直播信息的全部来源,但这些信息并不足以让用户对直播内容有足够了解和认识,因此,要力求客观、准确、详实的直播介绍和描述,减少信息不对称;定期针对用户参与付费知识直播情况进行回访,调查用户对知识直播内容、讲师以及平台服务质量和知识传递能力等方面的满意度,主动收集用户意见和建议,打通用户反馈沟通渠道,针对用户反映强烈的问题,及时优化升级,提升用户体验进而留住用户。
(3)长期沉睡型用户(群组3)
此类用户所占比例接近一半,约为46%,其显著特点是首次消费时间多为一年以前甚至更久,属于老客户群体,但最近一次消费时间间隔长,往期月均消费次数少,多为每月消费3次及以下,说明这一类别的用户长期保持着较低的活跃度,对付费知识直播的兴趣缺失。其中月均消费次数为3次及以下的用户群体的流失率高达71%,说明付费知识直播用户消费频率过低时流失风险极高,应引起高度重视。导致此类用户群体流失的原因可能是平时缺少感兴趣直播的精准推送,或是碎片化知识无法满足系统学习的需求。鉴于此,付费知识直播平台应该注重对老用户群体的客户关怀,适当通过消息提醒、直播讲座推送等方式与用户建立联系,激发用户对知识讲座的兴趣,预防用户流失;增加用户间互动,开设专题兴趣小组,倡导知识分享,激发用户求知欲;不拘泥于某一垂直领域,而是适当拓宽用户的知识关注范围,为用户进行不同主题的讲座推送,逐步探寻用户的兴趣点,避免知识窄化,使用户丧失求知欲望。
(4)经济型用户(群组4)
此类用户人数较少,仅占6%,其显著特点是次均消费金额小,但月均消费次数较高,评分与评论文本情感居中,说明此类用户对付费知识直播存在需求,而且使用体验并不差,但是在金钱投入方面比较谨慎,对知识直播讲座的价值认同较低。对此类用户可不定期发放优惠券、推送折扣活动,刺激消费;以积分、等级等方式提高用户的身份价值,进一步通过情感营销、会员制营销等提高用户对知识讲座的价值认同,增强其消费意愿;优化直播讲座“免费试听”功能,让用户大胆探索自己感兴趣的知识话题,为用户消除后顾之忧,增加后续购买的可能性。
为实现付费知识直播平台用户流失预测,本研究选择知乎Live作为数据来源,从用户价值特征及评价特征两个维度出发,获取用户最近一次消费时间间隔、月均消费次数、次均消费金额、用户关系长度以及评分、评论文本情感等特征数据,基于六种不同的机器学习算法构建预测模型,比较不同模型的预测效果,研究结果表明:
(1)在预测因素的选取方面,本研究提取的付费知识直播用户评分与评论文本情感特征对用户流失预测具有重要作用,融入评价特征后的用户流失预测模型拥有更优的表现。
基于RFML模型提取的用户价值特征仅仅是用户行为序列的综合体现,是客观数据,无法反映用户知识付费的体验与感受,因此在用户流失预测方面具有一定的局限;而用户评分与评论文本是用户主观情绪与感受的表达,可以在一定程度上反映用户的知识服务满意度与持续付费意愿,因此对流失预测具有一定作用。这说明在预测付费知识直播用户的流失倾向时,应积极挖掘用户流失行为背后的深层影响因素,通过用户特征的有效选取来优化预测效果,而非一味地针对预测算法做出改进。
(2)在机器学习分类算法的选择方面,在本研究引入的六种机器学习算法中,与传统的单一分类器相比,以XGBoost与随机森林为代表的基于集成学习的多分类器系统具有显著优越的预测能力,集成学习优越的泛化性能在本实验数据集上得到了很好的验证。在本研究数据集上建立的XGBoost付费知识直播用户流失预测模型的PR-AUC值为0.732,表现出较好的可靠性,可以在实际应用中发挥一定效用。
(3)在流失用户类型划分与留存策略讨论方面,本研究依据关键特征变量将流失用户划分为试用型、注重使用体验型、长期沉睡型、经济型四类,并针对性提出用户留存策略,供付费知识直播平台运营者参考。
在今后的研究中,可进一步探索如何在所有平台用户的大样本数据集上构建预测模型,并延续小样本数据集的良好预测效果及模型性能;融合进化计算、模糊逻辑等其他人工智能方法,探寻更高效的模型融合方法,进一步优化预测算法;关注用户行为数据及用户生成内容,从服务体验的视角理解用户行为,进一步发掘出更多可能影响用户流失的因素,形成一个更为完整、科学的预测框架,提高预测准确率。