基于Apriori和Gri算法的我国网民网络活动关联规则分析

2020-05-18 09:08黄文静
经济研究导刊 2020年10期
关键词:Apriori算法关联规则

摘 要:网络活动已成为人们日常生活的重要组成部分,研究我国网民网络活动对促进“互联网+”经济发展以及网民网络活动向着健康有益的方向发展具有重要的理论和现实意义。运用关联规则挖掘的Apriori算法和Gri算法,对网民网络活动间的关联性以及网民特征与网络活动的关联性进行分析。研究表明,上网聊天、了解新闻资讯、收发邮件、观看视频、购物与收集资料、下载资源和软件密切关联;玩游戏、购物、观看视频、收集资料、下载资源和软件与上网聊天密切关联;未婚大学生网民进行收集资料、下载资源和软件的网络活动,从而获得对学习有益的信息和资源,上网聊天也已成为青年人的主要网络活动形式;本科大学男生更喜欢玩游戏,而城镇已婚男性或者学历为硕士研究生的网民偏爱于了解新闻资讯。

关键词:网络活动;关联规则;Apriori算法;Gri算法

中图分类号:F224        文献标志码:A      文章编号:1673-291X(2020)10-0130-06

引言

2017年1月,中国互联网络信息中心(CNNIC)在第39次《中国互联网络发展状况统计报告》中指出,截至2016年12月,中国网民规模达7.31亿,相当于欧洲人口总量,互联网普及率达到53.2%,比全球平均水平高出了3.1个百分点,超过亚洲平均水平7.6个百分点。从上网时长来看,中国网民的人均周上网时长为26.4小时,网络已深入到我国国民的生活中,网络活动也已成为日常生活中的重要组成部分。网络活动日益丰富,网络活动间必然存在某些联动关系,并且网民特征与网络活动也存在着某种关联,了解这些关联可以帮助互联网企业在激烈的市场竞争中获得有利地位,可以更好地满足网民的上网需求。

随着信息化时代的发展,网民网络活动引起了国内外学者的关注,对网络数据的挖掘与研究成为了一个热点问题。Yu等、Li等、Ríos等通过收集在Web日志数据运用关联规则对网民的网络活动进行了分析,发掘网民的用户特征,从而不断完善网站的结构和提高用户的客户体验[1~3]。Liao等、Najafabadi等通过使用关联规则挖掘来有效地处理海量数据,在关联规则中捕获每个事务的多个购买,从而获取多个购买行为的用户之间的相似的兴趣模式[4~5]。缪红保等通过对用户网络流量进行协议投影而获得其行为模式和特征[6]。付关友等基于心理学的角度,用线性回归模型来描述用户浏览行为与关注度之间的相关性[7]。王实等挖掘Web访问页面之间用户访问的关联度规则,对Web站点的结构进行调整和优化[8]。高琳琪采用模糊相似度分析用户偏好结构与新闻结构的相似性,建立模型提供个性化新闻推荐服务,进行精细化的市场定位[9]。

国内外学者从不同角度对网民网络活动间问题进行了分析,并将获得规律运用至商业领域。本文则通过1 337份调查问卷,基于关联规则挖掘的Apriori算法以及Gri算法两种算法,进一步探寻网民网络活动之间,以及网民特征与网络活动之间的关联规则模型。研究成果对了解当下我国网民的网络活动状况,促进“互联网+”经济及网民网络活动向着健康有益的方向发展具有重要的理论和现实意义。

一、数据来源与模型描述

1.数据来源。本研究通过问卷设计,网上调查和实地调查相结合,邀请被调查者在问卷星网站作答或通过调查员纸质问卷开展调查,共发放问卷1 500份,回收1 350份,有效问卷1 337份。所有缺省数据的处理由SPSS Clemenetine12.0自动处理,不影响本研究的最终结果。

2.关联规则模型描述。关联规则最早由Agrawal等学者提出,主要用于研究超市顾客购买商品之间的规律,称为购物篮分析,其目的是为了挖掘隐藏在数据间的相互关系。简单关联规则的一般表现形式是:X→Y。其中,X称为规则的前项,Y称为规则的后项。规则置信度是对简单关联规则准确度的测量,规则支持度则测度简单关联规则的普遍性。判定简单关联规则实用性指标,主要有规则提升度、置信差、置信率等。本研究主要采用规则提升度,反映了项目X的出现对项目Y出现的影响程度,一般大于1才有意义。

3.Apriori 算法与Gri算法。Apriori 算法与Gri算法均是用于简单关联分析。区别在于:第一,Apriori 算法只能处理分类型变量,而Gri算法不但能处理分类型变量,而且前项还可以为数值型变量;第二,Apriori 算法中数据可以按事务表和事实表方式两种方式存储,而Gri算法只能按事实表方式存储;第三,Apriori 算法依据频繁项集产生关联规则,而Gri算法采用深度优先搜索(Depth First Search)策略实现算法。为此,本研究在分析网民网络活动关联规则时使用Apriori 算法,在分析网民特征与网络活动关联规则时使用Gri算法。

二、基于Apriori算法的我国网民网络活动间关联规则分析

1.事实表数据准备。网民网络活动的数据以事实表形式表示,变量值取1或0,1表示被调查者有此项网络活动,0表示被调查者无此项网络活动。调查表中共涉及9項具体网络活动,第10项为“其他”(如表1所示)。

网民网络活动情况(如表2所示)。网民性别、年龄、户籍、职业、学历、婚姻状况、月收入构成等特征限于篇幅,在文中略去。

2.Apriori 算法的关联规则。数据预处理后,采用二值型关联规则算法进行挖掘。本文使用 SPSS Clementine 12.0 软件中的 Apriori 节点来实施关联分析。首先,运用网络节点生成网状图(如图1所示)。当最低条件规则支持度阈值为 10%,最小规则置信度阈值为 80%,最大前项5时,可以得到28条有效关联规则。为进一步减少规则,甄别关键信息,将最大前项设置减少至2,最低条件规则支持度阈值为 10%,最小规则置信度阈值为 80%,可以得到10条有效关联规则(如图2所示)。

3.结果分析。通过Apriori算法得到关于网民网络活动的10条关联规则,后项主要为收集资料、下载资源和软件,以及上网聊天两类网络活动。

当后项为收集资料、下载资源和软件时,有7条关联规则,其中置信度最高为88.852%,其规则为:收发邮件,了解新闻资讯→收集资料、下载资源和软件,表明当网民进行收发邮件。了解新闻资讯时,在88.852%的情况下,会有收集资料、下载资源和软件这样的网络活动。该规则作用度为 1.443,支持度为22.593%,具有较高的应用价值。

当后项为上网聊天时,有3条关联规则,其中置信度最高为85.612%,其规则为:玩游戏、购物→上网聊天,表明当网民进行玩游戏、购物时,在85.612%的情况下,会有上网聊天这样的网络活动。该规则作用度为 1.551,支持度为10.296%,具有较高的应用价值。

同理,其他获得的8条规则在不同程度上揭示了网民网络活动间的关联性,这些关联规则均具有较高的实用性。因此可以认为,上网聊天、了解新闻资讯、收发邮件、观看视频、购物与收集资料、下载资源和软件密切关联;玩游戏、购物、观看视频、收集资料、下载资源和软件与上网聊天密切关联是网民经常开展的网络活动。

三、基于Gri算法的我国网民特征与网络活动的关联规则分析

1.数据准备。本研究中网民特征主要通過性别、年龄、户籍、职业、学历、婚姻状况、月收入构成(如表3所示),网络活动数据同上。

2.Gri算法的关联规则。本文使用 SPSS Clementine12.0 软件中的Gri节点来实施关联分析。当最低条件规则支持度阈值为 10%,最小规则置信度阈值为75%,最大前项为3时,可以得到43条有效关联规则。为进一步减少关联规则,在43条有效关联规则中调整最低条件规则支持度阈值为22%,最小规则置信度阈值为75%,最大前项为3时,可以得到15条有效关联规则(如下页图3所示)。

3.结果分析。通过Gri算法得到15条关联规则,后项包括收集资料、下载资源和软件、上网聊天和观看视频。三类后项,在图3中典型的关联规则主要有三条。

第一条,职业为大学生,婚姻状况为未婚→收集资料、下载资源和软件,置信度为77.5%,表明未婚大学生网民,在77.5%的情况下,会进行收集资料、下载资源和软件的网络活动。该规则提升度为1.259,支持度为46.74%,该规则符合当前大学生网络活动的特点,具有较强的应用价值。

第二条,年龄在20岁及以下,无收入→上网聊天,置信度=76.97%,表明在76.97%的情况下,20岁及以下、无收入的青年网民群体是上网聊天的主要人群。该规则提升度为 1.395,支持度为22.52%,该规则符合该类网民群体上网特征,上网聊天是青年学生重要的网络活动的形式。

第三条,性别为女性、职业为大学生、无收入→观看视频,置信度=76.56%,表明在76.56%的情况下,无收入的女大学生群体是观看视频的主要人群。该规则提升度为 1.337、支持度为24.96%,该规则揭示了女大学生是观看视频的主要群体。

同理,其他获得的12条关联规则在不同程度上揭示了网民特征与各项网络活动间的关联性,这些关联规则均具有较高的实用性。从输出结果来看,主要涉及到的网络活动就是收集资料、下载资源和软件、上网聊天和观看视频。

综合以上分析可以得到,未婚大学生网民会进行搜集资料、下载资源和软件的网络活动,主要由于大学生仍处在学习之中,网络上可以获取对学习有益的信息和资源,这一关联规则较为显著;上网聊天成为青年人的主要网络活动形式,当前网络即时通信技术发达,成为青年人沟通的主要媒介;女大学生成为了观看视频的主要群体,当前网络提供了海量视频资源,包括学习、娱乐等视频,这些资源成为了女大学生关注的重点。

如进一步降低阈值,设置最低条件规则支持度阈值为 10%,最小规则置信度阈值为 60% 时,执行后得到80条有效规则。可进一步发现,本科大学男生更喜欢于玩游戏,城镇已婚男性或者学历为硕士研究生的网民偏爱于了解新闻资讯。

四、结论与建议

通过1 337位网民的网络活动情况调查,运用关联规则挖掘的Apriori算法以及Gri算法可以得到以下主要结论。

1.上网聊天、了解新闻资讯、收发邮件、观看视频、购物与收集资料、下载资源和软件密切关联;玩游戏、购物、观看视频、收集资料、下载资源和软件与上网聊天密切关联。

2.未婚大学生网民进行收集资料、下载资源和软件的网络活动,从而获得对学习有益的信息和资源,上网聊天业已成为青年人的主要网络活动形式。

3.本科大学男生更喜欢于玩游戏,而城镇已婚男性或者学历为硕士研究生的网民偏爱于了解新闻资讯。

网络已成为人们生活工作中不可或缺的重要载体,要提高我国网民更多有益的网络活动:第一,互联网企业可以不断提供丰富的网络活动形式,特别是与网络相匹配的网络产品和服务组合;第二,目前,网络活动形成关联规则的仍然集中在青年学生等群体中,针对中老年网民的网络活动较少,中老年网民网络活动特征不明显,未见有效关联规则,可以进一步开拓基于该中老年网民群体的网络活动,提升互联网服务的范围和价值;第三,针对已有的青年网民网络活动特征,一方面加强网络活动的正确引导,另一方面进一步加大对青年群体网络消费潜力的挖掘,促进“互联网+”健康有序的发展。

网络活动已成为人们日常生活重要的组成部分,是满足人们精神生活的一种重要保障。为此,有针对性地加强网络活动的引导,对满足人们日益增加的网络消费需求,促进互联网产业健康发展,切实转变经济发展方式具有深远的意义。

参考文献:

[1]  Yu X.,Li M.,Paik I.,et al..Prediction of Web User Behavior by Discovering Temporal Relational Rules from Web Log Data[M].Database and Expert Systems Applications.Springer Berlin Heidelberg,2012:31-38.

[2]  Li D.,Laurent A.,Poncelet P.Mining Unexpected Web Usage Behaviors[C].Industrial Conference on Advances in Data Mining:Medical Applications,E-Commerce,Marketing,and Theoretical Aspects.Springer-Verlag,2008:283-297.

[3]  Ríos S.A.,Velásquez J.D.,Yasuda H.,et al..Web Site Off-Line Structure Reconfiguration:A Web User Browsing Analysis[C].International Conference on Knowledge-Based Intelligent Information and Engineering Systems.Springer-Verlag,2006:371-378.

[4]  Liao S.H.,Chang H.K.A rough set-based association rule approach for a recommendation system for online consumers[J].Information Processing&Management,2016,(6):1142-1160.

[5]  Najafabadi M.K.,Mahrin M.N.,Chuprat S.,et al..Improving the accuracy of collaborative filtering recommendations using clustering and association rules mining on implicit data[J].Computers in Human Behavior,2017,(67):113-128.

[6]  繆红保,李卫.基于数据挖掘的用户安全行为分析[J].计算机应用研究,2005,(2):105-110.

[7]  付关友,朱征宇.个性化服务中基于行为分析的用户兴趣建模[J].计算工程与科学,2005,(12):76-78.

[8]  王实,高文,李锦涛.基于用户访问事务文法的序列关联规则[J].软件学报,2001,(10):1503-1509.

[9]  高琳琪.基于用户行为分析的自适应新闻推荐模型[J].图书情报工作,2007,(6):1-5.

An Association Rules Analysis on Chinas Internet Users Network Activities Based on Apriori and Gri Algorithm

HUANG Wen-jing

(School of Finance and Economics,Jiangsu University,Zhenjiang 212013,China)

Abstract:Network activities have become an important part of daily life.Studying the network activities of Chinas Internet users has the theoretical and practical significance to promote the“Internet Plus”economic development and the development of Chinas Internet users network activities towards a more beneficial direction.This paper applies Apriori algorithm and Gri algorithm to analyze the correlation among network activities and between Internet users and network activities.The result shows,Chatting on the Internet,reading the newspaper and magazines,sending and receiving e-mails,watching the video and shopping are closely related to collecting information,downloading resources and software;Playing games,shopping,watching the video,collecting information,downloading resources and software are closely related to chatting on the Internet;Unmarried college Internet users often collecting information,downloading resources and software,which are useful to study;Chatting on the Internet has become the main form of network activities for young people;Undergraduate college boys prefer to play games,and urban married men or academic qualifications for postgraduates preferred to understand the newspaper or magazines.

Key words:network activities;association rule;Apriori algorithm;Gri algorithm

收稿日期:2019-10-28

基金项目:江苏高校哲学社会科学重点项目“新常态下江苏文化产业供给侧结构性改革动力与增长潜力研究”(2017ZDIXM037)

作者简介:黄文静(1995-),女,湖北潜江人,硕士研究生,从事国际经贸与产业经济学研究。

猜你喜欢
Apriori算法关联规则
基于Hadoop平台的并行DHP数据分析方法
基于Apriori算法的高校学生成绩数据关联规则挖掘分析
基于云平台MapReduce的Apriori算法研究
基于关联规则和时间阈值算法的5G基站部署研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于RFID的汽车零件销售策略支持模型
关联规则在高校评教系统中的应用