数据挖掘技术在高校校园APP用户黏度分析中的应用研究

2017-06-22 13:05洁,殷
信阳农林学院学报 2017年2期
关键词:数据挖掘关联黏度

闵 洁,殷 明

(信阳农林学院 信息工程学院,河南 信阳 464000)



数据挖掘技术在高校校园APP用户黏度分析中的应用研究

闵 洁,殷 明

(信阳农林学院 信息工程学院,河南 信阳 464000)

随着移动终端的逐渐普及,校园APP在高校日常管理中起着举足轻重的作用。通过数据挖掘技术对用户使用APP的相关数据进行研究,采用关联、聚类、决策树等数据挖掘方法找到用户黏度降低、用户丢失的原因,改进APP信息呈现形式,提升用户体验。

数据挖掘;校园APP;用户黏度;数据模型;算法

数据挖掘技术近年来在电子商务、广告营销等商业领域的应用呈逐年上升趋势,电商平台可以通过分析用户的购买和浏览数据,得到精准的用户画像,进而进行准确的商品推送。这些基于数据挖掘的研究,能够最大限度地为决策的科学化和服务的最优化提供支撑。如果将数据挖掘技术应用到高校校园APP用户黏度的分析中,对于遏制校园APP访问量的下滑趋势,提升校园APP在日常管理工作中的地位,节省高校管理成本具有重要意义。

1 数据挖掘的方法

数据挖掘就是从大量的数据中,按照不同的需求和纬度,通过算法循环提取有价值的信息或知识。数据挖掘的起点是大量的、有噪声的数据,数据挖掘的终点是有用的信息、知识。数据挖掘的方法是数据挖掘的核心,不同的知识获取需要的分析方法也不同。常用的分析方法有分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)和复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。

1.1 分类和预测

分类和预测是对离散和连续数值进行预测的方法,是根据已有数据属性来构造相应分类器的方法。常见的分类算法有贝叶斯、决策树、支持向量机、遗传算法、神经网络、粗糙集等。1975年提出的ID3算法是最为经典的分类预测算法。后经过改进成为C4.5算法。速度快、便于翻译和解释[2]是这类决策树算法得以采用和迅速流行的重要原因。

1.2 聚类分析

聚类分析方法主要用于市场销售、统计学、生物学和机器学习等领域。聚类分析就是通过将数据中相似对象组成多个分类,找出每个分类中的一个对象作为簇中心,用其他对象与其比较,相似度高的被加入一个簇,如此重复,簇内元素的相似度会越来越小[3],簇间相似度会越来越大。聚类分析方法在局部搜索规则数据方面有很好的效果。

1.3 关联分析

关联分析是充分利用事物之间联系的分析方法,一个事物的变化可能影响到其他事物的状态。核心思想就是通过分析不同对象在同一集合内发生的频率来找到他们之间的联系并加以利用。最核心的方法就是递推和基本频集理论。关联分析主要用于交易型数据库的分析。

1.4 复杂数据类型挖掘

随着硬件和网络的不断发展,多媒体信息逐渐成为信息传播的主体。数据挖掘往往要面对复杂的数据组成形式,包含多种数据类型的数据也需要进行数据挖掘。针对复杂数据类型的挖掘,除了采用前面讲过的方法以外,数据仓库的云存储,数据挖掘的分布式进行也逐渐被采用[4]。

2 高校校园APP用户黏度分析

高校校园APP以管理功能的易用性和传递消息的及时性等特点,受到越来越多高校的重视。但是,由于大家对于APP使用过程中,影响用户黏度的因素分析不足,造成用户黏度的下降,以致大量用户的流失。运用数据挖掘技术分析用户使用数据,多维度评估用户黏度,有针对性的对APP功能和内容进行改进是改善这一状况的重要途径。

2.1 校园APP用户黏度的定义

高校校园APP用户黏度并没有一个确切的定义,其内涵引申于网站用户黏度这一概念。网站用户黏度(Website Stickiness)产生的基础是互联网的不断发展,互联网领域对其定义为:用户对某一网站的重复使用度、忠诚度、依赖度,回访度,即一个网站能够吸引新用户和留住老用户的能力强弱,一般和用户迁移成本成正比[5]。如果把其中网站换成高校校园APP,那么校园APP用户黏度就可以理解为校园APP吸引新老用户,并使之长期重复使用的能力。

2.2 校园APP用户黏度影响因素

高校校园APP用户黏度主要受以下五个方面因素的影响,它们分别是:活跃用户量、用户的留存率、用户内容贡献度、用户之间互动频率、用户对APP的认可度。这五个因素最直接的体现就是用户访问时长和回访频率。

2.3 校园APP用户黏度分析现状

校园APP用户黏度分析一直没有得到高校和APP运维人员的重视。首先,对影响用户黏度的因素认识不足,没有深入研究影响APP用户黏度的具体原因。其次,部分对APP用户黏度的分析停留在基于网站的评价体系“PULSE”层面,而没有深入基于用户的评价体系“HEART”层面。只关注APP装机量、卸载量、目前活跃用户量这几个维度的统计数据,没有对数据进行科学的数据挖掘和分析。

3 数据仓库的建模和数据挖掘

3.1 用户数据的搜集

数据的搜集是建立数据仓库和数据建模的基础。在校园APP中按影响用户黏度的五个因素植入多个观测点,搜集用户注册、登录、发言、搜索关键词、讨论、访问页面、每日登录时长、好友数量、留言讨论数量等数据存入MySQL数据库。所有数据的搜集围绕提升用户黏度这一主题进行。在搜集数据的过程中,有意识的通过正则运算、判断等条件进行数据的前期筛选,这样可以节省后期数据清洗的工作量。

3.2 数据挖掘过程模型的建立

图1 SEMMA数据挖掘过程模型

数据挖掘过程模型独立于具体的数据挖掘模型和系统,从方法论的角度明确实施数据挖掘项目的流程和步骤。常用的有CRISP-DM,SEMMA和5A三种过程模型。我们采用的是SEMMA模型,模型具体流程如图1所示。

依据SEMMA模型,第一步,对用户使用校园APP的相关数据进行数据抽样,检验数据质量,找出用户黏度分析需要的样本数据。第二步,探索各个观测点搜集数据相关性以及可区分类别,进而发现规律和趋势。第三步,明确和量化如何提升用户粘度这一目标问题,调整数据适应问题的需要。第四步,依据数据特征和分析目标选择数据分析算法。第五步,通过全面评价,找到效果最优模型,并结合提升用户粘度这一目的对模型进行针对性的解释和应用。

3.3 数据挖掘

数据挖掘常用到的一些工具有RapidMiner、WEKA、R-Programming、Orange、KNIME、NLTK等。这些工具各有优缺点,本文选用RapidMiner进行数据挖掘。采用分类、聚类、关联和决策树等多个算法对采集到的用户数据进行处理,形成多个记录点,再根据他们与用户黏度的相关性大小进行筛选,最终确定影响用户黏度的关键因素,并为下一步改进指明方向。

3.4 数据挖掘在提升用户黏度中的应用

对用户数据挖掘的目的是为了提升校园APP用户黏度,通过改进APP更好地为用户服务。在栏目设置方面:以栏目类别作为维度,采用关联分析对各栏目进行分析,发现校内通知栏目更能吸引用户使用,与学习相关的课表、自习室情况查询栏目能够带来更多的访问量。另外,大家对一些提供诸如衣食住行信息的栏目都很有期待。在消息呈现形式方面,采用聚类分析方法,将弹出消息、主动推送消息和被动阅读消息分为不同的类。通过分析发现,弹出消息更能引起用户的关注,但是,弹出的数量与用户卸载量之间存在着关联,过多过少的弹出都会造成用户的卸载。还有,界面的美化与否也跟用户的访问时长存在着正相关的关系。在用户交互方面,将用户留言和用户之间的私信数据进行分类和关联分析发现,经常留言的用户更愿意进行用户间的互动。在回访率方面,通过用户注册人数、留言数目等维度关联分析发现,每学期新生报到的半年时间内,校园APP的回访率最高,这与新生活跃度较高、留言讨论激增有着很大关系。在APP未来功能增删方面,通过对关键词搜索频次、话题讨论主题进行决策树分析发现,用户希望在APP中引入更多学习、生活相关的功能,删去一些重复的部门信息呈现栏目。

4 结语

本文使用SEMMA数据挖掘过程模型,采用聚类、关联规则、统计分析和决策树等算法进行计算、分析、研究,构建了栏目访问量、用户发言量、用户参与讨论次数等关系模型,结合MySQL数据库表,使用RapidMiner数据挖掘工具进行分析,找到了各个因素对用户黏度的影响。将数据挖掘技术应用到校园APP用户黏度的分析当中,是一种有益的尝试,希望这种尝试能够为APP管理和运维部门提供一定的借鉴。

[1] 史尤昭.数据挖掘技术研究与应用[J].软件,2015,36(11):38-42.

[2] 黄有福.数据挖掘技术在招生数据平台的应用研究[J].电脑知识与技术:学术交流,2015,11(31)3-4.

[3] 张 瑶, 刘 辉.基于云计算的数据挖掘平台架构及其关键技术探讨[J].电子技术与软件工程, 2015(5):218-218.

[4] 闫晓峰,任 斌,韩玉娟.校园APP用户黏度调研分析报告[J].中小企业管理与科技,2015(25):233-237.

(编辑:严佩峰)

Research on the Application of Data Mining Technology in the Analysis of APP User's Viscosity in Campus

MIN Jie,YIN Ming

(School of Information Engineering, Xinyang Agriculture and Forestry University,Xinyang 464000, China)

With the gradual popularization of mobile terminals, it plays a pivotal role in the daily management of colleges and universities. The data mining method is used to study the data of users using APP, and the data mining methods such as association, clustering and decision tree can be used to find the reasons for the decrease of user viscosity, the reason of user loss, the improvement of APP information presentation and the improvement of user experience.

data mining;campus APP;user viscosity;data model;algorithm

2016-11-26

河南省科技攻关项目(172102210450),信阳农林学院青年教师科研基金项目(201401007).

闵 洁(1981—),湖北广水人,硕士,讲师,研究方向:数据挖掘.

TP311.56

A

2095-8978(2017)02-0110-03

猜你喜欢
数据挖掘关联黏度
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
超高黏度改性沥青的研发与性能评价
“一带一路”递进,关联民生更紧
奇趣搭配
扩链增黏回收PET的特性黏度和结晶行为研究
智趣
水的黏度的分子动力学模拟
一种基于Hadoop的大数据挖掘云服务及应用