数据挖掘技术在高校图书馆管理中的应用

2016-03-12 11:57:35葛晓玢
关键词:数据挖掘关联检索

葛晓玢,刘 杰

(铜陵职业技术学院,安徽 铜陵 244061)

数据挖掘技术在高校图书馆管理中的应用

葛晓玢,刘 杰

(铜陵职业技术学院,安徽 铜陵 244061)

本文分析了数据挖掘技术较之传统数据分析的优势,并列举了其在高校图书馆中的应用。

数字挖掘技术;图书馆

高校图书馆蕴含着丰富的馆藏资源,涉及到各个领域的专业知识,是学习的宝贵资源和财富,但是图书数量的增多给学生带来丰富信息的同时也给图书的甄选工作提出了挑战。如何将图书信息全面完整细致地呈现给读者一直以来是图书馆理工作研究的重点课题,鉴于图书数量庞大和跨学科研究学习的科研现状,数据挖掘技术走进了图书馆。

1 数据挖掘技术较传统数据分析的优势

与联机分析、报表分析和查询分析等传统的数据分析方法相比较,数据挖掘技术的显著特点是数据分析的模糊性和整体性以及隐含关联性,即数据挖掘的分析工作没有清晰的分析和检索依据,所检索得到的结果是与检索题目有关联的任何书目,有时是题目字词上的重合书目,有时是书目之间存在隐含的关联和重合性。正因为数据挖掘技术所挖出的数据信息与常规思维有差异,才可能获得意料之外的信息,从而有利于拓宽思维领域,打破思维定式,进而有利于资源的充分整合和利用[1-2]。

2 数据挖掘技术在高校图书馆中的应用

2.1 数据挖掘的基本方法

数据挖掘是数据分析的改进和升级,其与图书馆管理内容相匹配的基本的工作方法是对数据的关联、序列和分类以及聚类进行分析处理。第一,数据关联分析的主要工作为分析发掘数据表面之后的内容且找出数据信息之间的潜在关系;第二,数据序列分析的主要工作为对单位时间内的连续事件进行周期性的分析和处理;第三,数据分类分析的主要工作为依据各个样品的特征确定其分门别类的规律;第四,数据聚类分析的主要工作为将所有数据信息按照意群进行分组,每组再进行进一步分组,并且对每一层次的小组都进行说明。

2.2 数据挖掘的具体应用

(1)数据挖掘技术之预处理。数据的预处理工作是关乎数据信息真实性、有效性和准确性的基础性工作,预处理信息的可靠程度决定了数据挖掘过程中所提炼信息的质量和可用性。因此,在数据挖掘技术应用的过程中要对数据信息的采集和处理进行严格的质量检查和评估。在具体的工作中质控工作主要在于二级数据信息流通记录表单信息的处理,该处理工段要对数据的项目进行查缺补漏,去重补缺,从而保证基础数据信息的质量。其次,要对数据的清洗工作予以足够的重视,首先是要将残缺数据进行甄别并做适当的处理,然后要处理掉错误数据以免出现数据挖掘出无效信息而影响检索效率。最后,要对数据信息进行格式统一,对于相同或者相近信息进行统一化表述,对于不同类信息进行不同文字类别标识,从而提高挖掘的准确性和挖掘的速度。

(2)数据挖掘技术之挖掘引擎。挖掘引擎是数据挖掘技术的关键,引擎功能的强弱对挖掘出的信息质量和挖掘速度有决定性的影响。挖掘引擎的主要运作功用是应用最合理的技术和运算函数以及公式对数据库中的信息进行整合,从而用最短的时间提炼出最有效的信息。数据挖掘技术中主要有决策树、神经网络、关联规则、聚类分析、统计学习、模糊集和粗糙集等,下面详细对关联原则分析法进行说明。关联规则的重要作用是以支持度和置信度为参考量对数据信息之间潜在的关系进行分析说明。数据记录中所有字段取值构成的合集称作项集,记做I,设X、Y为项目集,且符合X∈I,Y∈I,X∩Y=Φ,那么,支持度是指包含项目集X和Y的事务数与所有事务数之比,记做support(X=>Y),它描述了X和Y这两个项目集在所有事务中同时出现的概率;置信度是指包含项目集X和Y的事务数与包含X的事务数之比,记做confidence(X=>Y),它描述了在出现项目集X的事务集中,项目集Y也同时出现的概率。关联规则分析方法的核心步骤便是根据最小支持度找出数据集中的频繁项目集,根据频繁项目集和最小置信度产生关联规则。如何查找频繁项目集,这是关联规则算法要解决的问题。经典的方法是查找频繁项目集的全集,其中包括基于广度优先搜索策略的apriori算法和基于深度优先搜索策略的FP-Tree算法。

(3)数据挖掘技术之用户界面。用户界面是数据挖掘技术的使用窗口,是服务于读者用户的终端。用户界面的设计要注意以下三个方面。首先是用户界面的设计内容中要充分体现图书馆的书香气息和学校的育人理念,从而为读者提供良好的人文阅读软环境;第二是用户界面的使用方法设计要条理清晰,图标形象,文字明了,从而有利于为读者所进行检索工作提供方便,进而增加数据挖掘技术的实用性;第三是用户界面软件的编程方法的选择,通常情况下可以应用C语言或者C++语言来完成界面的制作以利于编程工作效率的提高。

(4)数据挖掘技术应用之读者个性化服务功能。读者个性化服务与网络阅读中的相似文段推荐有异曲同工之处。数据挖掘技术在高校图书馆中的重要作用是建立读者的个性化服务使用功能,从而能保证读者在阅读本馆的相关书籍时了解到很多与之相关联的其他书籍,进而为学生的阅读提供定向性地指导,缩短了读者检索所用的时间。

关于读者的个性化服务功能的建立是以对大量图书借阅的信息数据为基础的,对读者群体、读者阅读喜好、对所借书籍的认可程度以及图书查询未果的概率等方面的数据进行分析,然后将信息分类汇总,最终确定检索某些书目的读者的阅读喜好和可能的研究方向,从而实现读者使用引擎进行检索时个性化服务功能可以为其提供与之相关的书目作为借阅参考。在该服务功能中读者说明了确切需求的为显示反馈,反之则为隐式反馈。读者个性化服务功能的实现,满足了不同读者对检索的需求,充分发挥了数据挖掘技术在高校图书馆管理工作中的作用,体现了信息技术对于各项工作的积极促进作用。读者的显示反馈将读者的检索内容作为个性化服务的参考,经由网络资源挖掘出读者所需的信息,并且还经由电子邮件、微信和微博等方式将相似度较高的信息推荐给读者。隐式反馈是计算机对读者的检索历史进行跟踪记录,从而为读者提供常用相关书目作为阅读参考。

3 结语

综上所述,数据挖掘技术所能够为高校图书馆管理工作提供有效的服务,不仅便于图书的管理工作,还对读者的有效阅读以及提高检索效率有显著的影响,最终将为大学生的终身学习进行辅助性的指导。

[1]蒋慧新. 数字图书馆的个性化信息服务研究[J]. 现代计算机(专业版). 2010(06) 21:104-105.

[2]杨雪霞.数据挖掘技术在高校图书馆管理系统中的应用研究[J].软件,2011,(04):16-18.

Application of data mining technology in University Library

GE Xiao-bin,LIU Jie

(Tongling Vocational and Technical College,Tongling 244061,Anhui Province,China)

This paper analyzes the advantages of data mining technology compared with the traditional data analysis, and lists its application in the University library.

digital mining technology; Library

G251

A

10.3969/j.issn.1672-7304.2016.05.024

1672–7304(2016)05–0049–02

(责任编辑:吴 芳)

葛晓玢(1983-),女,安徽淮北人,讲师,研究方向:web与数据库研究。

猜你喜欢
数据挖掘关联检索
探讨人工智能与数据挖掘发展趋势
“一带一路”递进,关联民生更紧
当代陕西(2019年15期)2019-09-02 01:52:00
2019年第4-6期便捷检索目录
奇趣搭配
基于并行计算的大数据挖掘在电网中的应用
电力与能源(2017年6期)2017-05-14 06:19:37
智趣
读者(2017年5期)2017-02-15 18:04:18
专利检索中“语义”的表现
专利代理(2016年1期)2016-05-17 06:14:36
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究
语言学与修辞学:关联与互动
当代修辞学(2011年2期)2011-01-23 06:39:12