数据挖掘技术在特色资源库中的应用

2018-12-10 12:12蔡璐
计算技术与自动化 2018年3期
关键词:个性化服务关联规则数据挖掘

蔡璐

摘 要:提出了一种基于数据挖掘技术的文献自动推荐系统架构,分析了系统实现的关键技术,并完成了系统模块化设计和算法实现。经实践验证,该推荐系统在特色资源库中具有良好的文献推荐效果和广阔的应用前景。

关键词:数据挖掘 关联规则 分类规则 个性化服务

中图分类号:TP311 文献标识码:A

Abstract: A system frame of library literature personalized recommender based on data mining is proposed in this paper. At the same time,analyzed their key technologies,design system modularization and arithmetic realization of the recommender system. At last,it greatly achieves good recommending result and application prospect in Characteristic DataBase in proctice.

Keywords: data mining;association rules;classify rules;personalized services

1 引 言

随着现代信息技术的快速发展,越来越多的数字化技术应用于特色资源的保存、展示和服务工作。如何帮助用户快速地从以海量存储为特征的资源中发现自己需要的资料,提供个性化信息服务是特色资源库建设首先要解决的问题。

基于关联规则与分类规则的数据挖掘技术,以用户兴趣特征为导向,通过从大量数据中挖掘潜在的、有价值的信息,分析用户潜在兴趣爱好,实现有针对性的特色文献自动推荐服务。经实践检验,本文提出的基于数据挖掘技术的文献自动推荐系统,具有良好的文献推荐效果和广阔的应用前景。

2 文献自动推荐系统架构

特色文献自动推荐系统是一个基于B/S模式的三层结构,如图1所示。

(1) 网站服务平台

网站服务平台是连接用户与应用服务之间的桥梁。主要作用有两个:一是收集用户的个人浏览网页、查询或下载文献等习惯行为资料,并按照一定的格式存储于电子证照数据库中;二是接收应用服务器对比特色资源库中相关信息后分析产生的结果,生成动态网页推荐并呈现给用户。

(2)电子证照数据库

电子证照数据库主要用于存储用户基本信息和用户使用信息。其中,用户基本信息利用证照采集、扫描、录入的方式获取存量证照信息,并通过前置设备进行证照封装与加盖电子印章,形成具有唯一标识的统一电子证照库,存储用户的个人资料;用户使用信息主要通过数据挖掘方法来获得,也可以由用户自己网上输入来修改。

(3)應用服务系统

应用服务系统是进行文献自动推荐的核心部分。其主要功能是将电子证照资源库中的用户信息,经数据预处理模块后,利用分类规则和关联规则进行数据挖掘,对比特色资源库内容,按照相似度从大到小的顺序,以某种指定形式推荐给用户,从而实现特色资源库文献自动推荐的功能。

(4)特色资源库

特色资源库是具有一定特点的文献信息资源总和,其核心元数据结构决定了特色资源库中所有资源都应遵循的标准,因此,特色资源库中的基本元数据可参照都柏林核心元素集标准,扩展元素参照我国各类文献已有的规范进行著录和标引,整个资源库通过各子库字段相互关联和数据库间相互链接的方式将各子库整合而成。

3 系统关键技术

3.1 关联规则

关联规则定义为:设I = {I1,I2,……,Im}是所有项的集合,其中Ik = {k = 1,2,……,m}称为项,项的集合称为项集,包含k个项的项集称为k项集。一个事务T是一个项集,它是I的一个子集,每个事务均与一个惟一标识符Tid相联系。不同的事务构成了事务集D,它构成了关联规则挖掘的事务数据库。如果项集X∈T,则称事务T支持项集X,也称事务T包含项集X。关联规则是这样一种形式的蕴涵:X?T,其中X[∩]I,Y[∩]I,且X∩Y = ?。

一般地,采用支持度、可信度、期望可信度和作用度等四个参数来描述关联规则的属性。其中,支持度和可信度能够比较直观地描述关联规则的性质,因此,关联规则的选择主要基于支持度和可信度这两个参数的值。本文采用FP-Growth 算法进行关联规则挖掘,其算法核心是FP-Tree(频繁模式树)的构建,它通过合并一些重复路径,实现数据的压缩,之后以树遍历的操作替代Apriori算法中的事务记录遍历,从而大大提高了运算效率。

3.2 分类规则

数据分类规则是通过学习训练集来构造一个分类模型或分类函数,然后利用该模型或函数将数据记录进行分类。常见的分类方法有贝叶斯分类方法、决策树方法、神经网络方法和遗传算法等。其中,决策树方法具有计算量较小、容易转化成分类规则、挖掘出的分类规则准确性较高等优点,因此决策树方法在数据分类方面得到了广泛应用。

决策树(Decision Tree,DT)是一种以实例为基础的归纳学习算法,类似于流程图,它从一组无规则、无次序的事例中归纳出分类规则,找出属性和类别间的关系,且以树的形式表示,也可以用它来预测未知类别记录的归属。Quinlan提出的ID3 算法是国际上公认的最具影响力的决策树算法,该算法基于信息熵的概念,并根据属性集的取值进行数据分类。

3.3 用户兴趣度模型

用户兴趣度模型是通过收集和描述用户的个人信息、使用偏好信息和上网行为记录等来建立,同时可以利用数据挖掘技术发现和预测用户潜在的兴趣需求。针对特色资源库使用对象的特点,本文提出了将用户注册兴趣和动态使用兴趣进行有机结合来构建用户兴趣的方法,将每个用户特征模型对应分为常规属性部分和动态属性部分。常规属性主要是指用户性别、年龄、研究方向、专业背景、教育程度等,这些属性可以从用户个人注册信息中得到,反映了用户较为稳定的兴趣倾向;动态属性则是会经常发生变更的数据,如用户的文献阅读信息、检索关键词、下载记录、对文献评分等需要经常变更的数据。

据此,建立用户兴趣模型为aML + (1 - a)MS。其中,ML为用户兴趣常规特征向量,MS为用户兴趣动态特征向量。a为[0,1] 之间的参数,也可以将a和(1 - a)分别看作为用户兴趣常规属性和动态属性的权重,用以调节对用户最终兴趣的影响程度。

通过建立以上的用户兴趣模型,就可以挖掘出用户的真实兴趣倾向。而使用分类规则,通过学习用户的上网行为记录,可以较容易地发现兴趣类似的用户群。

3.4 基于数据挖掘的文献自动推荐算法流程

从图2可以看出,特色文献自动推荐系统主要包括四大模块:用户兴趣偏好模块、推荐算法及功能模块、用户使用信息模块以及用户评价和反馈信息模块。

基于数据挖掘的特色文献自动推荐算法基本流程为:先通过分类规则对使用用户进行分类,再结合用户的上网习惯和用户反馈信息计算用户对文献的兴趣度,最后利用关联规则,将与用户兴趣关联程度大的文献,以某种指定形式自动推荐给用户。

4 图书馆文献自动推荐系统运行结果 及分析

4.1 图书馆文献自动推荐系统功能及运行结果

4.1.1 开发平台及系统功能

基于数据挖掘的图书馆文献自动推荐系统基于开源系统作为开发平台,依托开源的Linux系统、NoSQL数据库、Apache服务器进行建设,结果呈现采用了 Microsoft Internet Explorer 9.0 浏览器。

该系统具有文献浏览、检索、下载以及文献自动推荐等功能。用户首次使用需要注册,并填写个人相关信息。成功登陆系统后,有两种检索方式,即按类别检索或全部检索方式,来实现文献的查找,用户只需点击具体文献链接就可以实现全文在线阅读。此外,有些文献还提供了客户端下载功能。

4.1.2 系统运行结果

以读者证号为530136的用户为例,来说明图书馆文献自动推荐系统的使用。当该用户成功登录“我的图书馆”后,点击“文献推荐”栏目,系统就会根据用户的特点、借阅史、浏览史等信息,经综合处理后自动推荐并罗列出该用户可能感兴趣的文献列表,其中,文献后“new”标识说明该文献为数据库近期新增文献。用户点击列表中的文献超链接就可以直接访问到该资源。系统运行结果如图3所示。

另外,用户也可以在“个人信息维护”栏目中,进行信息更改和反馈,如个人基本情况修改、文献评分、推荐参数修改等,而这些更新都将重新存储到用户管理信息库,成为再次初始化该用户兴趣度的依据。

4.2 系统验证与评价

为了检验图书馆文献自动推荐系统模块的运行效果,随机抽取20篇推荐文献,查看用户对这些推荐文献应用情况的信息反馈和评价。采用3个等级来评价所推荐的文献,分别为:I表示差,II表示一般,III表示好。按照文献编号从小到大的顺序排序得到表1。从表1用户的反馈情况来看,该系统文献推荐结果比较好地满足了用户个性化需求,取得了良好的推荐效果。相对而言,文献推荐概率越大,用户的满意程度也就越高。

从表2中可以看出,随着推荐概率(即系统自动推荐支持度)由大到小的变化,文献查全率逐渐升高,而文献查准率逐渐降低,MAE变小。当推荐概率为0.33时,系统MAE值最小,系统性能最佳。

5 结束语

基于图书馆数字资源个性化信息服务的实际需要,提出了一种基于数据挖掘的特色文献自动推荐系统框架,分析了系统实现的关键技术,并进行了系统模块化设计和算法实现。该推荐系统基于湖南图书馆用户个人基本信息库、网上使用信息库等数据,利用关联规则与分类规则的数据挖掘技术,获取和分析用户之间、文献之间、以及用户与文献之间有用的关联和潜在的联系,构建了用户兴趣度模型,并按照用户兴趣度大小向用户自动推荐感兴趣的相关文献。最后,将文献自动推荐系统进行了实际应用,通过用户对推荐系统使用情况的信息反馈,以及对推荐系统模块工作性能的客观指标评價,验证了该系统的实用性和有效性。

参考文献

[1] RICCI F,ROKACH L,SHAPIRA B,et al.推荐系统:技术、评估及高效算法[M].李艳民,胡聪,吴宾,等译.北京:机械工业出版社,2015.

[2] 叶柏龙,徐静静,严笋.基于评分和项目特征的群组推荐方法[J].计算机应用研究,2017,34(4):1032—1035,1046.

[3] JANNACH D,ZANKER M,FELFERNING A,et al.推荐系统[M].蒋凡译.北京: 人民邮电出版社,2013.

[4] 乔冬春,刘晓燕,付晓东,曹存根.一种基于本体的推荐系统模型[J].计算机工程,2014(11):282—287.

猜你喜欢
个性化服务关联规则数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
浅析移动时代的图书馆发展策略
互联网思维下数字图书馆个性化服务建设研究
需求理论在高校图书馆就业服务中的应用研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于R的医学大数据挖掘系统研究
大数据对高校图书馆个性化服务的影响
一本面向中高级读者的数据挖掘好书