丁 军 高大启 薛程元 陈小红
1(华东理工大学信息科学与工程学院 上海 200237)2(盛大游戏数据中心 上海 201203)
基于社交网络的MMORPG玩家流失分析与预测
丁军1高大启1薛程元1陈小红2
1(华东理工大学信息科学与工程学院上海 200237)2(盛大游戏数据中心上海 201203)
针对大型多人在线角色扮演游戏MMORPG(MassiveMultiplayerOnlineRole-PlayingGame)的玩家流失分析与预测问题,采用Cox比例风险模型建立玩家的流失模型,对玩家流失的因素进行分析,并对流失进行预测。分析玩家在游戏中的社交网络的特征(玩家的好友关系、二度好友关系、好友间聊天情况)对玩家流失行为的影响。对盛大“星辰变”游戏数据的实验表明,游戏中玩家所处的社交网络对玩家的流失行为具有显著影响,并能够提高预测效果。与支持向量机、Logistic回归和朴素贝叶斯分类进行对比,表明Cox模型更加适用于该玩家流失预测问题。
流失分析流失预测Cox回归社交网络在线角色扮演游戏
在保险业、医疗保健行业、信用卡、互联网服务行业、通信行业等拥有长期稳定客户的行业中,客户的保留对公司的利润有着惊人的影响[1]。因而,国内外已有许多面向上述行业的客户流失分析与预测的相关研究。
近年来,大型多人在线角色扮演游戏MMORPG行业得到飞速发展。在MMORPG中,玩家扮演、控制某个角色,在虚拟世界中可以进行杀野怪升级、购买武器装备等行为;玩家之间也可以进行交互,如道具交易、组队完成任务、互相攻击等。游戏的运营商通过对玩家定期收费,或者对购买虚拟道具进行收费。近几年来,MMORPG的玩家数量急剧增长,据统计,2013年上半年中国国内MMORPG游戏收入突破142亿人民币。因而,游戏行业中各个公司、产品之间的玩家资源竞争日渐激烈。Kawale等[2]指出,吸引新的用户加入游戏比挽留老用户的代价大的多。所以,研究MMORPG中的玩家流失分析与预测具有重要意义。
Haenlain[3]、Ngonmang[4]、Nitzan[5]等相关研究均表明,在电话通信行业当中,客户所在的社交网络的特征对客户的流失行为有显著影响。而在MMORPG中,玩家之间有存在许多交互行为,玩家与玩家之间可能会加为好友,然后进行聊天互动、交易等,这使玩家之间形成了虚拟世界中的社交网络,它与现实世界的社交网络十分相似。
因此,本文针对MMORPG,在考虑玩家的个人属性和行为特征的同时,引入玩家在游戏中的虚拟社交网络的特征,建立流失分析与预测模型,以分析这些社交网络特征对玩家流失行为的影响,并对流失趋势进行预测。通过Cox比例风险模型,分别只使用个人属性行为特征、社会网络特征以及所有特征来建立流失分析模型。在盛大集团“星辰变”游戏数据上的实验表明,玩家的社交网络特征对玩家的流失行为具有显著影响,并能够明显提高流失的预测效果;实验中还将上述模型与SVM、Logistic回归、NaiveBayes等分类方法进行对比,对比采用准确率、召回率、F值指标,结果表明,针对本文实验数据的玩家流失预测,采用Cox回归最为有效,预测效果较好。
数据挖掘方法在其他行业的客户流失的研究中得到了广泛应用。例如Logistic回归、支持向量机SVM等模式分类方法[1,6-8],以及生存分析中的Cox比例风险模型[9,10]等。相对于模式分类方法,采用Cox回归分析和预测玩家流失,具有以下优点:(1) 玩家的行为特征通常会随时间变化,而Cox回归模型能够基于纵向数据进行建模,更加充分地利用这些依时间变化的协变量所包含的信息。(2) 能够处理删失数据(删失数据是指在观察或试验中,由于人力或其他原因未能观察到所感兴趣的事件发生,如个体死亡、玩家流失)。既能够考虑到观测截止时已经流失的玩家,也能够利用尚未流失的玩家信息,提高模型的有效性。因此,本文利用Cox比例风险模型对玩家的流失进行建模。
1.1生存函数与风险函数
生存时间,或者某事件出现的时间,通常用生存函数、概率密度函数和风险函数这三种形式来描述[11].
生存函数即累计生存概率。设T表示生存时间,F(t)=P(T≤t)表示T的分布函数(即个体生存时间长于t的概率)。则生存函数表示生存时间T超过给定值t的概率:
S(t)=1-F(t)=P(T>t)
(1)
概率密度函数的定义是:
(2)
风险函数λ(t)用于表示处于一定时刻t的个体是否容易死亡,它完全刻画了t的分布,因而直接决定了概率密度函数和生存函数,在生存数据分析中起着非常重要的作用。其定义为:
(3)
当生存时间T的概率密度已知时,λ(t)可以按如下形式来表示:
(4)
上述关系式表明,生存函数、概率密度函数和风险函数实际上是等价的,已知三者之一,即可导出另两个。
1.2Cox比例风险模型
Cox回归模型或Cox比例风险模型,在1972年由Cox提出[12]。起初主要应用于临床医学及流行病学,由于其适应性极强等特点,被应用于许多研究领域。
不失一般性,当协变量均随时间变化时,Cox模型的形式为:
h(t)=h0(t)exp(βTZ(t))
其中,Z(t)是依时间变化的协变量,β是回归系数向量,h0(t)是未知的基准风险函数,只与时间有关,它对应于所有协变量为0时的流失风险,与协变量无关。Cox模型不对h0(t)的分布形式做任何假设,应用范围十分广泛,它又被称为半参数模型[13]。
设S0(t)为t时刻的基准生存函数,则对应的累计生存函数为:
S(t)=S0(t)exp(βTZ(t))
每一时刻的基准风险通常用Kalbfleisch-Prentice[14]方法来估计。为了进行预测,我们需要在此基础上估计基准风险函数与时间的显式的关系式。通常假设(流失)事件发生的时间服从Weibull分布,记累计基准风险函数为:
那么累计基准风险函数与时间的关系为[15]:
logH0(t)=a0+a1log(t)
利用最小二乘法可以上式进行参数估计,从而能够得到之后一个月的生存概率。代入未来数据,可以对玩家的流失概率进行预测。
2.1实验数据
本文实验数据来自盛大集团的“星辰变”游戏。该游戏于2011年9月29日开始公开测试,其新服务器不断增开,版本持续更新,保持着较高的人气。本文选取该游戏“华中电信一区”的“逆央境”组,自2012年4月至2012年10月的数据。该区组在这一时间段内没有区、组的合并操作,相对比较稳定,玩家数目较多。我们限定玩家的注册时间在2012年4月之前。本文认为在某一月份当中有登录记录的玩家即为“活跃玩家”,否则断定其已经流失。流失是指当月没有活跃行为的玩家。
2012年4月的数据共包含活跃玩家6215名。在这些玩家的基础上,之后每月的活跃玩家剩余数量变化如图1所示,到2012年10月这些玩家当中有1653名尚未流失。
图1 星辰变华中电信一区逆央境4月起玩家留存数
2.2特征选取
2.2.1虚拟社交网络特征
本文通过玩家的好友列表构建社交网络。即玩家为网络中的节点,玩家与玩家之间有边相连,表示他们在游戏中互相加为好友。基于这一网络,本实验采用下述特征,以分析玩家的社交网络对玩家流失行为的影响:
1) 活跃/流失好友数
玩家的好友的流失行为可能会对玩家的流失风险产生影响,例如某几个好友的流失可能使得玩家也不愿继续游戏,所以首先考虑玩家的好友数的变化这一因素。在网络中,活跃好友数即玩家对应节点的邻居节点数目,或节点的度。用ISNi,t表示玩家i在月份t的邻居节点集合,即玩家的好友列表中的所有好友的集合,那么玩家i在月份t的活跃好友数active_neighbori,t可记为:
我们用x1表示这一变量。并且其中:
类似地,每个月的已经流失的好友数为:
2) 二度好友关系
IritNitzan[5]在其关于电信行业客户流失的研究中表明,社交网络中度更高的客户在网络中的影响力更大,对其邻居的影响更强。依据这一结论,我们考虑二度好友关系,即分别统计流失和未流失好友的好友数目。
用active_second_neighbor表示活跃好友的活跃好友数目,则:
x3=active_second_neighbori,t
同理,每个月已经流失好友的好友数为:
3) 聊天数目
好友之间的关系越密切,他们之间的相互影响也会越大。本文通过好友之间的聊天数目来表示好友之间的关系强度。好友之间发送/接收到一条消息,聊天数记为1,分别对玩家与当月的活跃好友,以及与本月已经流失的好友,前一个月的聊天记录数分别为:
其中,chati,j,t表示玩家i与玩家j之间,在月份t当中的聊天信息总数。
2.2.2个人属性与行为特征
除了上述本文主要研究的虚拟社会网络因素之外,我们还加入玩家的个人角色属性以及在游戏中的行为特征,描述如下:
x13:玩家的游戏角色性别。
x8:角色等级,从1级至70级。
x9:角色的职业。“星辰变”中共有6个角色。
x10:玩家角色当月的登录游戏次数。
x11:当月杀死其他玩家角色次数。
x12:当月杀死怪物、灵兽以及非玩家角色次数。
x13:当月被玩家角色击杀次数。
x14:被怪物、灵兽以及非玩家角色击杀次数。
x15:角色当月花费金币总量。
x16:角色当月花费金币次数。
x17:角色当月花费星币总量。
x18:角色当月花费星币次数。
x19:角色当月与其他玩家角色组队次数。
上述属性与行为特征能够表示玩家角色的状态、心态以及对游戏的参与程度,我们认为它们可能成为玩家流失的影响因素。这样,本文共考虑19个特征,包含6个社交网络特征以及13个个人属性与行为特征。
2.2.3特征筛选方法
前文所介绍的特征数目较多,其中有些特征可能与玩家流失的相关性较大,而另一些特征可能与玩家的流失并无明显关联,所以需要对这些特征进行筛选,去除冗余特征。本文使用Cox回归中最常使用的Z检验,进行一次筛选,来实现这一目的。
Z检验的零假设和替换假设分别为:
H0:βk=0,其它参数βi(i≠k)固定
H1:βk≠0,其它参数βi(i≠k)固定
当H0成立时,Z统计量Z=βk/SE(βk)应服从标准正态分布,其中SE(βk)为回归系数βk的标准误差。通过Z统计量对应的概率值,可以推断出变量与玩家流失关系的显著性。
本文在R语言环境中,利用“coxph”包所实现的Cox回归模型进行实验,当中的“basehaz”函数实现了Kalbfleisch-Prentice估计。
3.1特征的相关性检验及筛选
在数据预处理阶段,我们将表中除性别之外的所有特征进行标准化和中心化,以提高模型的拟合效果,以及便于对各个特征对流失的影响程度进行比较。将处理后的数据代入Cox模型,训练结果的各个特征的系数及检验结果见表1所示。其中,第二列为回归系数,第三列为系数以e为底的幂值,第四列为Z统计量对应的概率值。
表1 所有特征的系数及Z检验结果
我们设定显著性水平为0.5,则筛选出的特征为:职业(x9)、登录次数(x10)、被其他玩家击杀次数(x13)、金币消费总数目(x15)、金币消费次数(x16)、组队次数(x19)、活跃好友数(x1)、流失好友数(x2)、活跃好友二度好友数(x3)、流失好友二度好友数(x4)、流失好友上月聊天次数(x6)。在这一实验中,在6个社会网络特征中,有5个对玩家流失具有显著影响。特征筛选方法适合于其他的模型,都可以通过模型的特征系数的显著性来进行筛选。
3.2特征的相关性检验及筛选
利用上述筛选出的特征,构建Cox回归模型:
模型1:
其中,f(x)=exp(βTx)。对模型1进行拟合,得到拟合系数结果如表2所示,系数绝对值对比如图2所示。在所有筛选出的特征当中,系数的绝对值最大的是玩家当月金币的使用次数,为-2.76,对流失的影响程度最大,花费金币次数越多,玩家的流失风险越低。其次是登录次数,也是登录次数更多的玩家,流失风险更低。
表2 模型1拟合系数
图2 模型1拟合系数绝对值柱状图
玩家在游戏中的社会网络特征当中,活跃好友数、流失好友的好友数、活跃好友的好友数以及流失好友数对玩家流失的影响都相对比较大。其中,活跃的好友数的系数(x1)为负(-1.503),流失好友总数的系数为正(x2, 0.720),说明玩家的活跃好友对玩家的行为具有正面影响;反之,流失好友的增多也会使玩家容易随之一起流失。活跃和流失好友对应的二度好友数这两个特征的系数(x3和x4,分别为-0.779和0.915)则表明,一个玩家的好友数能够对其好友的行为产生影响,它可以在一定程度上代表玩家在社会网络中的影响力,这也印证了文献中的观点。除此以外,社会网络特征中的玩家与流失好友在前一个月的聊天数目(x6, 系数为0.423)也对其流失行为有显著影响,聊天数目越多,说明玩家与好友之间的关系越密切,因此好友的流失对玩家的影响也会更大,拟合结果正印证了这一点。这些结果说明,玩家在游戏中的社交网络的特征对玩家的流失行为的影响是显著的。
比较出乎意料的结果是被玩家击杀次数的系数为负(x13, -0.474),我们可以解释为,通常被其他玩家杀死次数多的玩家,游戏的参与度相对更高,更不容易流失。
3.3生存函数估计
通过Kalbfleisch-Prentice估计得到5~9月基准生存函数,如图3所示。5月的生存函数值为0.959,而到9月,这一数值降到了0.607。用1.2节介绍的方法进行拟合,拟合结果的修正R方为0.9991,F统计量对应的概率为8.045×10-6,表明采用这一方法的拟合效果是十分满意的。代入10月的数据,并利1.2节介绍的方法,基准生存函数值0.526。
图3 基准生存函数曲线图
3.4玩家流失预测
为了作为对比,我们还分别只使用玩家的个人属性与行为特征,以及只使用社会网络特征来构建模型。
模型2:只考虑玩家的个人属性以及行为特征:
h/h0=f(x9,x10,x13,x15,x16,x19)
模型3:只考虑社会网络特征:
h/h0=f(x1,x2,x3,x4,x6)
3.4.1评价指标
如表3所示,有tp个类别为流失的样本被模型正确判定为流失,fn个类别为流失的样本被模型误判定为类别未流失,有fp个类别为未流失的样本被模型误判断定为流失,tn个类别为未流失的样本被模型正确判为未流失。
表3 准确率和召回率
Precision=tp/(tp+fp),又称“精度”、“正确率”,反映了被模型判定的流失玩家中真正的流失玩家的比重。
Recall=tp/(tp+fn),又称“查全率”,指的是所有真实流失的玩家中被模型判定为流失的比重。
Precision和Recall都是评估流失模型的重要指标。F值是Precision和Recall的加权调和平均,F= 2×召回率×准确率/(召回率+准确率),F值是模型的一个综合评估指标。
3.4.2模型评估
表4为使用三个Cox回归模型以及SVM、Logistic回归和朴素贝叶斯分类器对玩家的流失做预测的评价结果,我们分别计算出准确率、召回率和F值。
Cox回归模型如前文所述,用4~8月的数据来进行拟合,再用9月的数据来预测10月玩家的流失情况,我们设定概率阈值为基准流失函数值;类似的,在后三个分类方法中,将表列出的特征,4~8月每个月的数据分别作为分类器里的一个特征,进行训练,预测时,则采用5~9月的数据,对10月进行预测,SVM采用Sigmoid核。
表4 10月份玩家流失预测对比
在Cox回归的三个模型中,只采用玩家个人属性与行为特征时,召回率比较高(0.992),但是准确率只有0.234;而引入了玩家的社交网络特征的模型1,预测的准确率达到0.753,召回率为0.824,其F值为0.393,综合效果好于前者。而只采用社会网络特征时(模型3),预测结果的准确率和召回率均略低于0.5。通过对比可以看到,玩家的个人特征与社交网络特征,对流失预测具有互补的作用,当综合使用两方面的特征,预测结果显著高于仅仅使用一类特征时的结果。采用模式分类方法的实验中,SVM与Logistic回归的预测准确率较Cox模型高,而召回率低;朴素贝叶斯分类的结果则与前两者相反。通过F值的对比,Cox回归模型更加适用于本文的玩家的流失分析与预测。
MMORPG玩家的流失对游戏运营商的收益具有重要影响。本文采用Cox比例风险模型建立MMORPG游戏玩家流失分析模型,对“星辰变”游戏玩家的流失行为进行分析,并具体分析了游戏中的社会网络因素对玩家流失行为的影响。实验结果表明,玩家在游戏里社交网络中的玩家特征和流失行为对玩家的流失行为有显著影响。引入这些特征能够显著提高流失预测效果,并且Cox回归模型更加适用与本文的MMORPG玩家流失预测问题。
[1] 应维云,覃正,赵宇.SVM方法及其在客户流失预测中的应用研究[J].系统工程理论与实践,2007,27(7):105-110.
[2]KawaleJ,PalA,SrivastavaJ.ChurnpredictioninMMORPGs:Asocialinfluencebasedapproach[C]//ComputationalScienceandEngineering,2009.CSE’09.InternationalConferenceon.IEEE,2009,4:423-428.
[3]HaenleinM.Socialinteractionsincustomerchurndecisions:Theimpactofrelationshipdirectionality[J].InternationalJournalofResearchinMarketing,2013,30(3):236-248.
[4]NgonmangB,ViennetE,TchuenteM.Churnpredictioninarealonlinesocialnetworkusinglocalcommunityanalysis[C]//Proceedingsofthe2012InternationalConferenceonAdvancesinSocialNetworksAnalysisandMining(ASONAM2012).IEEEComputerSociety,2012:282-288.
[5]NitzanI,LibaiB.Socialeffectsoncustomerretention[J].JournalofMarketing,2011,75(6):24-38.
[6]HuangB,KechadiMT,BuckleyB.Customerchurnpredictionintelecommunications[J].ExpertSystemswithApplications,2012,39(1):1414-1425.
[7] 蒋国瑞,司学峰.基于代价敏感SVM的电信客户流失预测研究[J].计算机应用研究,2009,26(2):521-523.
[8]DasguptaK,SunghR,ViswanathanB,etal.Socialtiesandtheirrelevancetochurninmobiletelecomnetworks[C]//Proceedingsofthe11thinternationalconferenceonExtendingdatabasetechnology:Advancesindatabasetechnology.ACM,2008:668-677.
[9] 邓森文,马溪骏.基于Cox模型的移动通信行业中低端客户流失预测研究[J].合肥工业大学学报:自然科学版,2010,33(11):1698-1701.
[10] 郑浩,赵翔.基于生存分析的顾客流失预测及挽救效果研究[J].生产力研究,2011(1):97-99.
[11]KalbfleischJD,PrenticeRL.Thestatisticalanalysisoffailuretimedata[M].JohnWiley&Sons,2011.
[12]CoxDR.Regressionmodelsandlifetables[J].JRstatsocB,1972,34(2):187-220.
[13] 王启华.生存数据统计分析[M].北京:科学出版社,2007.
[14]WengYP,WongKF.Baselinesurvivalfunctionestimatorsunderproportionalhazardsassumption[D].InstituteofStatistics,nationalUniversityofKaohsiung,2007.
[15]RoystonP,ParmarMKB.Flexibleparametricproportional-hazardsandproportional-oddsmodelsforcensoredsurvivaldata,withapplicationtoprognosticmodelingandestimationoftreatmenteffects[J].Statisticsinmedicine,2002,21(15):2175-2197.
CHURNANALYSISANDPREDICTIONFORSOCIALNETWORK-BASEDMMORPGPLAYERS
DingJun1GaoDaqi1XueChengyuan1ChenXiaohong2
1(School of Information Science and Engineering,East China University of Science and Technology,Shanghai 200237,China)2(Data Centre,Shandagames,Shanghai 201203,China)
FortheproblemofanalysingandpredictingplayerschurninginMMORPG(MassiveMultiplayerOnlineRole-playingGame),webuiltachurnanalysismodelusingCoxproportionalhazardmodeltostudythefactorsofplayerschurning,andtopredictthechurningaswell.Specifically,weanalysedtheimpactsofsocialnetworksfeaturesofplayersinthegame(players’friendships,secondarydegreefriendshipsandchatsbetweenfriends)onplayers’churningbehaviours.Experimentsonthegameof“StarsVariation”ofSDOshowedthatthesocialnetworkstheplayerslocatedingamesignificantlyaffectedthechurningbehavioursofplayers,andcouldimprovetheeffectofprediction.Incomparisonwithsupportvectormachine,LogisticregressionandnaiveBayes,theCoxmodelisprovedmoresuitablefortheplayerschurnpredictiontask.
ChurnanalysisChurnpredictionCoxregressionSocialnetworksMMORPG
2014-08-27。丁军,博士生,主研领域:数据挖掘。高大启,教授。薛程元,硕士生。陈小红,本科。
TP311
ADOI:10.3969/j.issn.1000-386x.2016.03.024