徐 凡
(西南科技大学,四川 绵阳 621010)
关联规则是数据挖掘中最常用的方法,关联规则挖掘的主要目的是从大量的数据中寻找关联性,为决策分析提供理论支持[1]。关联规则运用最经典的运用是购物篮分析“啤酒与尿布”的例子。而关联规则中最常运用到的是Apriori 算法,它能够根据用户提供的条件有效的进行数据挖掘。
Agrawal 等人在1993年首次提出关联规则,该规则主要用于挖掘数据之间的关联性,对事物之间的亲密度进行描述。关联规则可描述为:设I={i1,i2,…,in}是项目集,D 是全体事务的集合,集合T∈I,即T 为I 的子集,每个事务有唯一的TID 标识。关联规则就是形如X=>Y 的蕴含式,其中X∈I,Y∈I 且X∩Y=φ,X 称为规则的条件,Y 称为规则的结果[1]。运算结果通过支持度和可信度进行约束。
关联规则中的支持度(Support)S 表示D 中有S%的事务同时包含X 和Y,即事务集中同时包含X 和Y 的事务数与所有事务数之比,记作Support(X,Y)=P(X∪Y)。置信度(Confidence)C 表示D 中有C%的事务同时也包含Y,即包含X 和Y 的事务数与包含X 的事务数之比,记作Confidence(X,Y)=P(Y/X)=P(X∩Y)/P(X)[2]。运用关联规则进行数据挖掘就是要挖掘出满足用户设定的最小支持度和置信度的规则。我们把同时满足用户设定的最小支持度和最小置信度的规则称为强规则。关联规则的数据挖掘,一般分为两步:首先找出所有满足用户设置的最小支持度的项目集,其次利用最大数据项集所生成的关联规则,根据用户指定的最小置信度确定规则的取舍,最后得到强关联规则[1]。
Apriori 算法作为经典的关联规则算法,其算法的实现是通过对数据库进行扫描从候选项集中找出频繁项,不断对候选项计数来完成的。它使用的是逐层搜索的迭代方法,通过对前一项集的探索来发现符合该次条件的项集。也就是说,Apriori 算法的基本思想是通过对数据库的多次扫描以发现所有符合条件的频繁项。在第k 次扫描中只考虑具有同一长度k 的所有项集。在后续的扫描中,首先以前一次所发现的所有频繁项集为基础,生成所有新的候选项集。然后扫描数据库D,计算这些候选项集的支持度,最后确定候选项集中哪些可成为频繁项集。重复上述过程直到再也产生不出新的频繁项集。在计算过程中,Apriori 算法需要不断重复连接与剪枝这两个步骤。然而该算法也存在潜在的问题,即当数据容量庞大时,生成的候选项集数量太多,会降低该算法的计算效率,同时大量规则的产生也让用户难以选择,这也是在运用Apriori 算法是需要解决的问题[3]。
为研究网络社区中知识形成过程中哪些因素对其产生了影响,本文通过对网络社区中知识形成过程进行分析,着重思考了在知识形成中哪些因素会影响到个人对网络社区知识的吸收,重点考虑了九个方面的因素来分析,主要包括参与的目的性、成员级别、个人专业知识、知识接收者的知识结构、回帖数量、表达方式、回帖者态度、信息源、社区参与者的线下关系这九个方面,分析了以上九个方面的因素对知识形成产生的影响。通过网络问卷调查的方式,共收获共119 份问卷,为文章提供了原始数据。
对于部分数据,参与调研者的态度并不是很明确,因此通过运用SPSS19.0 对已有数据进行了数据转换,同时,由于调查者的使用时间与使用频率不在考察的范围,因此对问卷中的关于使用时间与使用频率的数据进行了删除,将问卷结果转化为布尔型数据,将结果中的肯定结构标为“1”,否定结果标注为“0”,并对数据中的九个项目进行了从I1 到I9 的编号,即I1=目的性,I2=成员级别,I3=个人专业知识、I4=知识结构、I5=回帖量、I6=表达方式、I7=回帖者态度、I8=信息源、I9=社区参与者的线下关系,部分数据整理结果如表1 所示:
在对数据进行基础分析后,进入数据分析阶段。文章运用SPSS clemention12.0 对数据进行Appriori 运算。关联规则设置中,文章将I1设置为后项,其他八项设为前项,将最小支持度设置为40%,最低置信度为80%,对其他的选项进行设置后开始运行,其运行结果部分如表2 所示。
表2 运算结果
对运行结果进行分析,可知,I4、I6、I3 同时出现的频率为42%,置信度达到了92%,这说明这三个项目在整个运算中非常重要,此规则为强关联。这表明知识结构、表达方式、个人专业知识同时影响了网络社区成员知识的形成。I6、I3 同时出现的置信度为87%,这说明这一项目集在整个事务中起着很大的影响,即在网络社区知识形成中,表达方式、个人专业知识同时影响着社区成员知识形成。I4、I6 同时出现的置信度为85%,这表明在网络社区知识形成中,社区成员的知识结构与表达方式同时影响着社区成员知识形成的行为。I7、I5 同时出现的置信度为85%,它表明在整个事务中,二者同时出现的行为对整体有很大的影响,即在研究网络社区知识形成中,回帖者态度与回帖量同时影响着社区成员新知识的形成。I3、I5 同时出现的置信度为85%,即在此研究中,个人专业知识与回帖量同时影响着网络社区知识形成行为。I4、I6、I5 同时出现的置信度为85%,这表明知识结构、表达方式、回帖量同时对网络社区知识的形成产生重要的影响。I4、I3、I5 同时出现的置信度为85%,这表明个人专业知识、知识结构与回帖量同时影响着社区成员知识形成行为。I4、I3 同时出现的置信度为84%,这表明在网络社区知识形成中成员知识结构与个人专业知识同时对其产生了很大的影响。I8、I6 同时出现的置信度为84%,表明信息源与表达方式同时影响着社区成员的知识形成。I6 产生影响的置信度为83%,即在影响网络社区成员知识形成中知识的表达方式产生了很大的作用。I6、I5 同时出现的置信度为82%,表明表达方式与回帖者态度同时影响了社区知识形成行为,I7、I6 同时出现的置信度为82%,表明回帖者态度与表达方式同时对网络社区知识形成产生了很大的影响。I8、I3 同时出现的置信度为82%,表明信息源与专业知识同时影响了网络社区知识的形成。在支持度为42%时I8、I3 同时出现的支持度为82%,再一次表明信息源与专业知识同时对网络社区知识的形成产生了很大的影响。I4、I5 同时出现的置信度为81%,这表明知识结构与回帖量同时对网络社区知识形成产生了大的影响。I4、I5 同时出现的支持度为55%,置信度为81%,它说明知识结构与回帖量同时影响着网络社区知识的形成。I5 出现的置信度为81%,它表明在网络社区知识形成中回帖量对其产生了大的影响。I9、I5 同时出现的置信度为81%,即在网络社区知识形成中,线下关系与回帖量同时产生了大的影响。I7、I3 同时出现的置信度为81%,它表明回帖者态度与个人专业同时影响了知识对网络社区知识的形成。I8、I6 同时出现的置信度为80%,表明信息来源与表达方式同时影响了网络社区知识形成。
从以上数据分析我们可以发现,在这些统计项中,I5 与I6 出现的次数最多,即回帖量与知识表达方式对网络社区知识形成产生最重要的影响,因此对于网络社区回帖量以及发帖中的表达方式规范的管理非常的重要,因为他对网络社区成员对于知识的筛选与吸收产生了很大的影响。在所有的项集中,I3 出现的频率也非常的高,即知识分享者的专业对社区成员知识形成具有很大的影响作用。I8、I3 即信息源与专业知识、I4、I5 即知识结构与回帖量同时出现的可能性非常高。
通过以上数据分析我们发现,回帖量与知识表达方式对网络社区知识形成产生非常重要的影响,对于多数网络社区成员来说,登陆网络社区仅仅属于浏览状态,并没有特别的目的,这也在研究中有所体现,因此对于多数社区成员,回帖量成为选择阅读内容的标准。同时对于社区成员来说,内容的表达方式如文字、图片、视频等也影响到了其对知识的筛选。有些社区成员偏向于对图片内容的阅读与吸收,而有些却潜意识的选择视频图像形式的知识。由上述数据分析可以得到社区知识的表现方式有极大的影响。而知识分享者的专业知识这一因素成为影响网络社区知识形成的重要因素在于它体现了其分享的知识的可信程度,影响了社区成员对社区知识的选取与转化程度。
同时由上述结果可以发现,信息源与专业知识、知识结构与回帖量是项目同时出现频率最高的两组,即其中的一个因素出现,另一个因素也随之出现。信息来源与专业知识的同时出现表明网络社区成员在对关注信息发布者的个人专业时,同时会关注转载来的信息的来源,也就是说当网络社区成员关注他人的知识的专业性时在选择其他知识时也会关注其知识来源,这在一定程度上表明了社区成员对信息可信度的考量。社区成员个人的知识结构与回帖量的同时出现则表明当社区成员由于个人知识结构出现欠缺在进行知识选择时,回帖数量会成为其考虑因素,因为回帖数量代表了知识的积累量,因此在对网络社区知识形成影响因素进行分析时二者同时出现的可能性非常大。
需要指出的是,这里的影响因素侧重于研究影响社区成员将社区知识转化为个人知识的因素,即哪些因素影响了网络社区中成员对已有知识的接收与转化,因此研究结果会与之前的研究可能存在一定的差别。
[1]廖开际.数据仓库与数据挖掘[M].北京大学出版社,2008,11.
[2]刘耀南.Apriori 算法的分析及应用[J].佛山科学技术学院学报:自然科学版,2012,30(3).
[3]张仁寿,罗林开,叶凌君.Apriori 算法对高技能人才市场工资价位影响因素的实证分析[J].中国软科学,2010(1).