基于改进的关联规则挖掘算法的用户兴趣挖掘

2016-10-28 16:09李珊邵兰洁孙丽云
计算机时代 2016年9期
关键词:关联规则置信度数据挖掘

李珊+邵兰洁+孙丽云

DOI:10.16644/j.cnki.cn33-1094/tp.2016.09.020

摘 要: 研究发现,传统的关联规则挖掘算法在用户兴趣挖掘的应用中,摒弃置信度这个度量值。究其原因,在于网站结构中置信度不能准确度量用户兴趣。提出了一个可以替代传统置信度的、在网站环境下能正确反映用户兴趣的确定性的度量值,并结合用户的浏览速率进行用户兴趣挖掘。对比实验结果表明,此方法挖掘用户兴趣的效果明显。

关键词: 关联规则; 置信度; 数据挖掘; 用户兴趣挖掘

中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2016)09-70-03

User interest mining with improved association rule mining algorithm

Li Shan, Shao Lanjie, Sun Liyun

(College of Information Science and Technology, Yanching Institute of Technology, Langfang, Hebei 065201, China)

Abstract: The study found that the traditional association rule mining algorithm in the application of user interest mining, gives up the metric of confidence. The reason lies in the confidence cannot accurately measure the user interest because of the structure of the website. This paper proposed a metric that can replace traditional confidence and can correctly reflect user interest in the website environment, and mining the user interest according to the user's browsing speed. The results of contrast experiment show that this method is effective in mining user interest.

Key words: association rules; confidence; data mining; user interest mining

0 引言

在“互联网+”时代,驱动社会变革的不仅是无所不在的网络,还有无所不在的计算、无所不在的数据和无所不在的知识。这些数据中蕴含数据生产者真实意图和喜好,是非传统结构和意义的数据。从中“提纯”出有用的信息,对网络架构和数据处理能力而言是巨大的挑战。

关联规则是一种重要的数据挖掘技术,其中著名的Apriori算法是1994年由Agrawal等人提出的,至今仍然作为关联规则挖掘的经典算法被广泛讨论,并广泛应用于Web使用挖掘。但由于网站结构的特殊性,用户在浏览页面时,都是通过当前页面上的超链接来选择下一页,因此,Apriori算法中的置信度不能准确反映用户的兴趣。

本文针对置信度的不确定性和用户浏览行为所包含的信息,提出选择兴趣度的定义和结合用户的浏览速率进行用户兴趣挖掘的方法。

1 传统的关联规则挖掘算法

关联规则的挖掘应用在事务数据库D上,该数据库中每个事务包含一组数据项。其挖掘目的是发现数据项之间的关联和相关性,即事务中一组数据项的出现(在一定程度上)预示着其他数据项的出现[1]。在Web日志挖掘中,事务是用户在一次对Web站点的访问中所浏览的一组页面的URL集合,相应地,关联规则的挖掘是为了发现用户所访问的Web页面之间的相关性。

关联规则挖掘算法-Apriori中的置信度是一个条件概率,表示D中事务已经包含X的情况下,包含Y的百分比,也称为可靠度,或置信水平、置信系数。在抽样对总体参数做出估计时,由于样本的随机性,其结论总是不确定的。由于网站结构的特殊性,置信度不能准确挖掘出用户兴趣。

ICV比IL更能准确的体现用户兴趣,与用户的实际评价基本相符。由此可知,用户的兴趣与用户的行为密切相关,单纯考虑日志记录不能准确表示用户的真实兴趣。

5 结论

针对关联规则挖掘算法的研究大多是针对算法效率和规则的应用,本文提出了对生成关联规则所用参数的质疑,并通过实验证明选择兴趣度能准确的捕捉到用户的兴趣。Web日志中的数据虽然能表现用户的兴趣,但不够准确。用户的行为从一定程度上更能体现用户兴趣,因此通过实验证明两者结合挖掘用户兴趣,效果明显。进一步研究数据的收集机制与技术开发,既能有效进行用户识别,又能保护用户个人隐私。把心理学对兴趣的研究成果引入到Web数据挖掘中,与网页的内容信息、结构信息相结合。

参考文献(References):

[1] 王平水.关联规则挖掘算法研究[J].计算机工程与应用,

2010.30:119-120

[2] 曾丽芳,朱征宇,陈烨.基于Web日志和网页特征内容的用户

兴趣度计算[J].微处理机,2010.31(4):86-90

[3] 单蓉.一种基于用户浏览行为更新的兴趣模型[J].电子设计

工程,2010.18(4):61-62

[4] 李珊,云彩霞,白彦霞,张秋菊,李丽芬.应用模糊集理论的多

因素兴趣度评价[J].计算机工程与应用,2009.8:136-138

[5] 李建廷,郭晔,汤志军.基于用户浏览行为分析的用户兴趣度

计算[J].计算机工程与设计,2012.33(3):968-972

[6] 许波,张结魁,周军.基于行为分析的用户兴趣建模[J].情报学

报,2009.18(5):166-169

[7] 周智.基于浏览行为量化计算的用户兴趣网页分析[D].重庆

大学硕士学位论文,2009.

猜你喜欢
关联规则置信度数据挖掘
硼铝复合材料硼含量置信度临界安全分析研究
探讨人工智能与数据挖掘发展趋势
正负关联规则两级置信度阈值设置方法
基于并行计算的大数据挖掘在电网中的应用
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
一种基于Hadoop的大数据挖掘云服务及应用
置信度条件下轴承寿命的可靠度分析
基于GPGPU的离散数据挖掘研究
多假设用于同一结论时综合置信度计算的新方法✴