张孟琛
北京航空航天大学 北京学院,北京,100191
数据挖掘技术是国际上信息决策领域的前沿研究方向之一,其通过对海量数据进行深入分析发现并提取其中隐藏的有价值的信息,来满足人们对搜集数据和信息的需求需要。当前已经有大量数据库用于政府办公、商业管理、科研探究、工程开发等多个领域,其中游戏开发产业作为日渐增长的朝阳产业,日新月异的方向变动成了各开发者团队的关注点,如何处理愈发复杂的数据成了重中之重。
针对互联网多平台发行的游戏行业发展特点,数据挖掘技术带来的营业数据库信息实时汇总与处理为运营管理提供了极大的方便,也为游戏行业信息化的进一步提升提供了有力的支撑。利用数据挖掘技术对大量玩家受众信息进行细致深入的分析,使得寻找目标消费者和相关商品推荐成为可能,帮助运营部门创造出更多的经济与社会价值,制定并实施更加有效的商品销售策略。同时在游戏发行后,如何使用数据挖掘技术收集并分析玩家反馈,对游戏的优化迭代也有着积极作用。
随着数据挖掘的重要性的不断提升,这个词语与相关技术渐渐走进了人们的视野。这项技术的核心是采用多种统计学、机器学习的数理技术方法,在诸如SPSS等数据挖掘类软件的操作下从大量随机的数据中挖掘并分析出有潜在应用场景的、有实用价值的数据模式。操作所得到的数据信息往往能够反映开发商所需要的诉求,能在不同的数据变量中找出关联和时序等关系,从而生成一张数据库中隐藏的关联网。这类数据信息能帮助企业和商家回答在决策过程中重要的商业问题,比如最有价值的玩家群体是哪些、公司明年的营收前景如何等问题。这些问题促进了数据挖掘技术的发展,以便更高效地去分析收集到的数据集[1]。
随着数据挖掘技术的进一步发展,数据挖掘为越来越多的游戏运营部门管理者所重视,逐步成为发行管理者研究分析玩家行为特征的工具。其中关联分析和决策树作为数据挖掘中两个重要的研究和分类方法,笔者将在下文中做详细介绍。
关联分析可以理解为如果有离散的点之间存在规律性,则将其进行连接以组成线和网,为决策者提供更直观的指导条件。关联分析中的关联规则为两个项集中的蕴涵表达式,项集与项集之间组合可以产生很多规则,但不是每个规则都有用,因此也需要一些限定条件来帮助我们找到强度高的规则。
决策树方法可通过逼近离散函数值的方式对数据进行高效处理与分类,主要分为构造和剪枝两个阶段。构造时将离散的数据搭建关联与时序等关系生成可读的决策树,以此对处理后的数据进行统计与分析。从本质上来说,决策树可通过一系列规则对数据进行统计与分类,在决策者已经明确了各个情况发生的概率后(也即对已有数据进行处理后),来对项目风险进行评估。正如同生活中要做的诸多选择一样,决策树也是通过建立模型来为自身添加根节点与子节点,从而构造所有的情况。在条件过多时还需要对其进行剪枝,避免过拟合与久拟合的训练现象发生,但要保证损失函数不能过高。利用构建完善的决策树可以实现更高效更全面的决策行为。
如同游戏开发需要经历立项、实施和结项三个阶段,一个完整的数据挖掘操作也需经过准备数据(准备与处理)、寻找数据规律(统计与关联)和规律表示(呈现数据挖掘结果)三个阶段。在准备数据阶段,操作者需要整理源数据集,并从相关的大量数据中选取所需并将其整合处理为可用于数据挖掘的部分,通过多种方式发现其中的关联或规律,再处理得到完整的数据集,将结果针对结果和目标可视化地展现,以进行评估和总结。
在进行数据挖掘时,首先应确认进行挖掘的目的和期望的关联规则,以在源目标集中进行数据的准备,通过软件进行系统的预处理,并把不合法的数据类型进行转换和统一,就得到了可用于数据挖掘的原始数据集。
在数据的选取阶段,操作者需要对目标主体和市场有透彻的理解以及大致的挖掘结果期望,也即在选取之初就对结果有大致的预期,理解挖掘的过程与选择的参数变量。接着挑选出与模型契合的数据,并根据挖掘需要进行进一步的筛选与预处理。预处理阶段即利用软件对数据进行进一步处理,如统一不同数据的数据类型,或对噪点进行处理等,可以理解为将一个场景内所有离散的点经过插值和处理转换为一张规则的网状系统,每一个数值都可以参与到运算,确保所有变量都可以参与到后面的挖掘过程中。
在数据挖掘的最后一步,操作者需要建立一个适合挖掘算法的分析模型,并将所有经过处理的数据进行导入,通过模型以进行挖掘和后续操作,至此即完成了数据准备部分的全部工作。
在模型建立完毕后,此时操作者已经对结果有了大致的预期,接下来就要确定挖掘算法与挖掘后的知识类型。常见的算法有决策树方法、数据统计方法、关联规则等[2],文中会对部分算法进行详细介绍,同时还要进行数据规约,对数据进行降维操作。其基本操作是删除列、删除行、删除列中值的数量;规约完毕后检查模型未使用过的数据,通过代入开发环境复回过程以检验模型是否存在错误和纰漏,无误即可记录挖掘结果与相关的数据信息。
规律是面向决策者最直观的结果呈现,需要尽可能完善地对挖掘结果进行统计与展示。因此需要检查有无与规则相悖的数据、与当前结果无任何关联的信息等。若规则与预期相差过多,则需再次选择数据进行准备,重新进行数据挖掘。另外由于数据挖掘是最终要面向用户的,应该以让决策者更容易理解的形式将得到的挖掘结果表现出来,根据结果来制定并调整后续的策略,以供用户所用。
综上所述,在数据挖掘的三个步骤中,发掘规律的过程是持续迭代和往复的,在保证模型的准确性和合理性上才能得出正确的信息,再在此类信息的基础上进行决策和更精准的进展策划,以规划出最精确合理的战略。
下面以国内一些已发行的独立游戏为例进行研究,希望能通过这一实例说明数据挖掘技术在游戏产业的具体应用过程,同时也说明该技术在游戏产业的有效性和实用性。
这个实例研究的目标是帮助独立游戏行业的策划者及运营者在立项时准确寻找目标受众玩家,并以此为基础帮助项目经理制定切实可行的开发计划和营销战略。
为了准确制定用户画像,首先需要对目前市场中大部分同类别同机制游戏的目标受众群体进行研究,并结合相同机制进行分析预测。以PC端第一人称视角独立游戏为例(图1),选择国内端游市场的10款PC端第一人称视角独立游戏的玩家反馈信息作为数据来源。同时为了尽可能减少因不同平台发行造成的影响,笔者选择的10款PC端游的数据均从一个平台中获得,并从社区玩家反馈中精心挑选出200位玩家,对其在平台上的玩家信息与游玩详情进行了具体的调查统计。主要考察了玩家个人资料数据(年龄、性别、总游戏时长等)、玩家的行为数据(游玩游戏的类型、对调查游戏的游戏时长、游戏方式、支付方式)、玩家的心理或态度数据(玩家对游戏剧情、内购商品定价、活动运营的满意度)。值得注意的是,笔者基于国内某企业游戏运营课程中的层次分析法进行分析,所选择的数据均是基于对游戏行业本身全面了解之上的。比如本次数据准备所考察的玩家群体是对游戏本身提供的某些服务的满意度数据进行整合后挑选的。此外由于玩家满意度数据无法从个人信息数据库中得到,因此又通过前往该玩家的游戏社区查看评论这一有效方式对建模数据进行了确认和完善。
对收集的信息进行整理后,笔者对信息中的数据进行了消噪处理,并对数据类型不统一信息的进行了转换。其中主要是把一些玩家个人信息中的属性数据转化为了更加易于处理的整型数字,比如把玩家对各项游戏内容指标的满意度属性均转化为非常不满意(0)、比较不满意(1)、一般(2)、比较满意(3)、非常满意(4);将玩家的游戏时长数据转换为10小时以下(0)、10~20小时(1)、20~30小时(2)、30~40小时(3)、40~50小时(4)、50小时以上(5);将玩家的性别数据转换为男性玩家(0)、女性玩家(1)。
综合上述多种因素,笔者在众多数据挖掘技术中选择了易于理解生成规则的决策树算法与关联分析[2],将各选定样例游戏逐个作为数据集进行处理。接下来就是使用数据挖掘工具Clementine进行挖掘,在对所有模型进行统一处理后,共计挖掘出十余条规则。在这些规则中部分规则是显而易见的,如一款枪战射击类游戏的核心用户画像与盈利方式,开发经验丰富的游戏策划在进行立项时就已经确定;而部分规则是不可知且具有指导意义的,对策划及运营在进行立项工作时有很好的参照作用[3]。
比如对于上述十款PC端游的综合数据,使用Clementine软件及其他工具,从性别与游戏市场两个维度挖掘出了如图1所示的有关玩家进行此品类游戏的相关规律:年龄在18岁以下的男性玩家平均游戏时长接近20小时,而18~28岁之间的男性玩家为主要受众,平均游戏时长在45小时以上;年龄在28~40岁之间的男性玩家的平均时长在30小时左右;40岁以上的男性玩家平均时长在10小时以内。年龄在18~28岁之间的女性玩家平均游戏时长在10~20小时之间,其他年龄段的女性玩家则很少游玩该品类的游戏。
图1 第一人称射击类游戏玩家受众分析
上述统计数据表明:对于研发PC端第一人称视角独立游戏的开发商而言,在立项选择目标用户群体的过程中,应明确主要的受众是18~28岁之间的男性玩家,而18岁以下以及28~40岁的男性玩家与18~28岁的女性玩家可作为次要受众,因此,可以通过更多数据挖掘维度对该受众群体的喜好、支付方式和游玩设备进行分析,针对该用户群体制定相应的广告宣传和营销策略,并采取有针对性的游戏活动和返利措施以培养其玩家黏性。而对于其他阶段潜在的用户群体,也应推广一些相应活动提高游戏的普及度,让这一类别的用户群体也能够加入到该游戏的玩家群体之中。
综上所述,在游戏立项阶段对用户受众的分析对后续产品研发有重要的指导作用。而在游戏发行后,发行商仍然需要长期持续对玩家的受众信息和游戏体验进行数据挖掘,定期分析玩家的反馈与游玩体验以保持对玩家群体诉求的了解,从而制定正确的经营战略并设计后续的游戏内容产出。
在游戏立项时,对主流市场的需求调研以及主题确立是奠定一款游戏发展路线的重中之重。中国有一句古话“凡事预则立,不预则废”。经过上述系统调研,可以明显看出数据挖掘对玩家用户画像定位的帮助,并可根据更加清晰的类别受众统计来深度挖掘核心消费以及潜在的消费需求,并与业务、市场等部门讨论了解最终目标与需求。
在数据挖掘的诸多环节中,笔者认为最重要的就是数据的采集。保证收集的数据质量和范围都足够完善,并对数据进行完善的描述及处理。随着时代的发展和变化,游戏数据的关注方向也在发生着变化,例如十年前的游戏大多关注的是PCU(最大在线人数),而当今则更关注游戏玩家的活跃用户数[4]。找到正确恰当的数据并对其进行处理,才能得到更好的模型结果。
同时本文中所展示的数据挖掘方法只是在立项初期对用户画像确定的一个案例,对于一款正式面向社会的游戏,数据的挖掘还不仅仅体现在初期的需求分析之中,发布后对游戏的维护、减少玩家流失、资源规划把控等步骤都需要数据挖掘来明确项目的发展方向与查漏补缺,以向玩家达成更好的呈现方式,为运营带来更多帮助与参考。
本文讲述了数据挖掘在游戏行业的具体应用。通过上述实例可以了解到,随着互联网技术的不断普及与科学技术的稳步发展,数据挖掘技术对于游戏产业确立目标受众群体是十分有用的工具,可以帮助游戏开发商及运营策划制定切实可行的营销战略,这也为所有游戏开发商的游戏发行提供了一个良好的思路[5]。
对于开发商而言,上述方法不仅可以确立自己游戏的受众群体,还可以根据不同平台选择最合适的宣发方式,并通过可视化的数据模型预估玩家喜好,塑造最合适的游戏社区模型,为开发者和使用用户都创造一个更好的平台及空间。