申 一,周 鹏
(河北经贸大学,石家庄050001)
基于CART 决策树的大学生游戏消费行为研究
——以某高校大学生为例
申 一,周 鹏
(河北经贸大学,石家庄050001)
针对大学生游戏消费行为,提出了基于CART决策树的预测方法,此方法具有较高的的准确率和良好的自学能力。利用CART决策树可以对影响游戏消费行为的复杂因素进行回归分类及规则提取,进而从众多的数据中得出一致性规律,经过CART决策树模型的构建,结果表明,CART决策树方法良好地预测了影响大学生消费行为的因素。
决策树;CART算法;大学生;游戏消费行为
随着网络的飞速发展,PC终端、移动设备(手机)、各种游戏主机的不断换代更新,游戏在数量、类型题材、质量、市场规模等方面都实现了持续稳定的增长,游戏用户在游戏上花费的时间、金钱愈来愈多。而游戏用户的组成中,大学生这一群体占有重要的地位。由于大学生普遍时间充裕,个人可支配财产较为稳定,接受新鲜事物的愿望与能力较强,所以要研究中国现阶段的游戏产业,研究大学生的游戏消费行为必不可少,在此,以某大学的大学生为例进行分析。使用的决策树方法相对其他数据挖掘算法,拥有的优势:一是决策树易于理解和实现;二是对于决策树,数据的准备往往是简单或者不必要的;三是能够同时处理数据型和常规型属性;四是易于通过静态测试来对模型进行预测;五是在相对短的时间内能够对数据做出可行且效果良好的结果。因此运用CART决策时算法进行分析。
分类回归树包含了分类树和回归树,是通过向现有数据学习,用于实现对数据内在的规律进行探究,并用于对未来新数据进行分类预测的方法。本文采取的是 CART(Classification And Regression Tree)算法。这种算法与C5.0算法的思路是相似的,都包括了决策树生长和决策树剪枝过程。CART算法的输入变量和输出变量可以是分类型也可以是数值型,CART算法只能建立二叉树,这两点是CART算法和C5.0算法最明显的区别。
本文所采用的输入变量均为多分类型输入变量,由于CART只能够建立二叉树,所以对于本文选用的多分类型变量,首先需要将多类别进行合并产生两个类别,通常称为“超类”,然后需要计算两个“超类”下样本输出变量取值的异质性。
理想情况下,“超类”应该能够起到让两组输出变量取值异质性的和达到最小的作用。也就是使得“纯度”达到最大。
Gini系数是CART算法用来测度异质性的。数学定义为:
其中,t为节点,k为输出变量的类别数,p为节点t中样本输出变量取j的“归一化”概率。由此可见,当节点样本的输出变量均取同一类别值时,输出变量取值的差异性达到最小值,Gini系数取最小值为0,当个类别取概率值相等时,输出变量取值的差异性最大,Gini系数值达到最大,为1-1/k。
所以,Gini系数的减少量可以用来衡量异质性的下降,数学定义为:
其中G(t)和N分别为分组之前的输出变量的Gini系数和样本量,r和l下标分别表示分组后的右子树和左子树。
利用上述两式可以得到使得两“超类”下输出变量取值异质性下降最快(即“纯度”上升最快)的分割点。除此方法之外,CART算法还可以采用Twoing策略和Ordered策略得到最佳分组变量。
在通过决策树方法对某大学学生游戏消费行为进行分析。数据采集方法为网络问卷调查。选取性别、年级、每月生活费用、接触游戏时间、每天玩游戏的时长、游戏类型、消费数额、消费动机、消费所处的游戏进程作为输入变量,消费行为作为输出变量。其中消费行为是包含理性行为、冲动行为和中性行为的三分类型变量。利用clementine软件进行分析。
上述图1为本次数据分析过程的数据流,首先对数据进行了预处理。预处理第一步是对利用Type节点输入变量类型进行处理。如下表。
第二步是对输出变量的处理。原问卷中,将消费行为作为五级量表进行调查,现为了方便分析,将原问卷中的选项进行合并,利用Reclassify节点将原有取值进行重新赋值,最后将消费行为设置为冲动、中性和理性三种不同行为。
图1 数据流
二分类型变量(F l a g)年级 多分类型变量(s d t)每月生活费用 有次序的多分类型变量(O r d e r e d S e t)接触游戏的时间 有次序的多分类型变量(O r d e r e d S e t)每天游戏时长 有次序的多分类型变量(O r d e r e d S e t)游戏类型 多分类型变量(s d t)消费数额 有次序的多分类型变量(O r d e r e d S e t)消费动机 多分类型变量(s d t)消费时的游戏进程 有次序的多分类型变量(O r d e r e d S e t)性别
由于本文采用的数据不存在缺失数据和离群值,所以不涉及数据插补工作。接下来在图1所示节点位置添加CART节点。分析结果以及决策树如下图所示。
由上述分析过程可以得出。想要分析游戏玩家消费者行为,首先应该关注的是该消费者在玩游戏过程中的累计消费金额,这是因为玩家消费过多可能导致冲动消费过多。
在消费金额100元以下以内的消费者中:首先应该关注的是玩家在游戏什么进程时进行消费,这是由于老玩家和新手玩家对于游戏的理解不同,可能导致的消费行为也不同。在游戏前中期进行消费的消费者中,所玩游戏类型不同导致的消费行为也会有一定的差异,对于手机游戏玩家和网络游戏玩家来说,由于外界因素影响以及为了增加游戏观感体验和增加游戏人物实力导致的消费,大都是冲动消费而为了节省时间成本的消费大都是理性的消费。而单机游戏和主机游戏玩家,不管由于什么动机进行消费,他们的消费行为大都是理性的;在游戏后期消费的玩家中则分为两类:第一类玩家的消费动机大都受周围人群影响,理性与否受所玩游戏类型所影响,手机和网络游戏玩家消费行为大都是理性的,单机和主机游戏玩家更倾向于冲动消费;第二类玩家游戏消费的最大动机是增加游戏观感体验、增加游戏人物实力、节省时间成,他们的游戏消费行为大都是理性的。
图5 决策树
[1]汪 辉,侯传宇.决策树相关算法研究[J].电脑知识与技术,2011,7(15):3572-3574,3581.
[2]骆盈盈,王柯玲,陈川等.结合递增式学习的CART算法改进[J].计算机工程与设计,2007,28(7):1520-1522.
[责任编辑:王 鑫]
F0631.2
A
1005-913X(2017)07-0052-02
2017-05-26
申 一(1994-),男,山西长治人,硕士研究生,研究方向:调查与大数据分析;周 鹏(1992-),男,河北张家口人,硕士研究生,研究方向:金融统计与风险管理。