基于数据挖掘技术的数字图书馆信息服务研究

2018-02-09 06:26倪伟燕
浙江工商职业技术学院学报 2018年4期
关键词:数据挖掘图书文献

倪伟燕

(菏泽学院,山东 菏泽 274000)

基于数据挖掘技术为主的数字图书馆是在互联网环境下建立的,可使读者摆脱空间和时间的限制,将传统图书馆转移到了某种介质上,读者可以通过移动设备,获取图书馆的各种资源。数字图书馆能满足读者随时随地进行信息检索和图书阅读的要求,下面针对基于数据挖掘技术的数字图书馆建设进行具体论述。

1 数据挖掘相关概念和现状

1.1 数据挖掘概念

数据挖掘技术就是使用算法在大量的数据中搜索隐藏的信息。数据挖掘也是发现知识的过程,是通过科技,从繁杂冗长的数据中找到潜在的信息,再通过转换分析,进行模型化处理,从而获得自己需要的数据,最终为数据管理决策提供依据。同时该技术也可以和人工智能、数据统计、数据库等技术相结合进一步深入挖掘下去。

1.2 数字图书馆的国内外现状

美国加州大学的Michael Cooper教授通过数据挖掘技术对大学图书馆日志数据进行分析,对不同类型的读者在图书馆逗留的时间和规律,建立了一个数学模型,通过聚类对读者的行为规律进行分析,同时预测未来的发展情况。芝加哥大学的Swansan开发了Arrowsminth软件系统,可对每种文献之间存在的关系进行分析,从而为读者提供更有价值的信息知识。Papatheodorou等人将数据挖掘技术使用到图书馆信息管理中,为图书馆建立数据管理对策和进行馆藏提供了更多的科学依据。

随后出现的关联挖掘理论技术,实现了图书馆信息个性化推送服务。之后2011年,有学者提出使用数据挖掘技术建立针对性的推荐系统,对读者访问图书馆网站的时间、偏好、浏览情况等进行分析,总结读者选择信息的关联性和规律性,从而在网页上实现信息推荐。2012年,有学者在云计算基础上建立图书馆数据挖掘系统,为用户提供平台数据共享集和算法,从而实现开放性的图书馆数据共享系统[1]。同时也有人对图书馆读者的行为进行分析,建立根据读者的行为和偏好建立数据挖掘技术模型。2014年逐渐实现移动性的数据挖掘技术数字图书馆[2]。

2 数据挖掘技术分析

2.1 数据采集

数据包括了:读者的行为数据,也就是读者在高校图书馆访问OPAC时生成的日志,其中涵盖了读者检索词、电子书下载、链接点击、电子资源访问等信息;读者借还数据,即读者借阅的各类书籍名、次数、欠费时间、类别、索书号等相关性的流通日志数据。

2.2 数据预处理

日志文件属于非结构式的文本文件,数量比较多,而且没有统一性。在分析数据之前需要从非结构数据中收集结构化数据,再完成预处理。先要进行数据清洗,即去除冗余数据、缺失数据、噪声过滤等。再进行数据转换,就是缩短数据的维度,降低数据挖掘时需要分析的变量数和特征[3]。

2.3 数据挖掘膜性

根据读者聚类和分类分析,总结出读者的个性化需求,从而建立关联性规则模型。先要进行分类和预测,寻找具有预测性的信息,建立重要数据模型,或是预测数据模型。再进行关联规则分析,分析读者借阅特征和图书间的关联性。

3 数据挖掘技术在图书馆信息服务中的应用

3.1 在馆藏资源优化方面的应用

读书馆每年采购文献的经费有限,如果能在数字图书馆基础上对流通日志、馆藏书目数据和检索请求等信息进行分析,分析文献信息的使用率、读者感兴趣的模式,同时预测未来读者的兴趣变化,以及未来图书馆文献采购趋势,这样就能合理订购文献资源。笔者所在的图书馆设立了技术部,主要负责图书馆计算机管理系统的研究、管理以及应用开发等工作,同时在资源采集方面,配合采编部做好资源购置工作。为了保证有限的资金能最大限度地得到合理利用,就需要运用数据挖掘技术,对图书馆的流通日志、馆藏数据、检索信息等进行分析,找出流通量比较大的书籍数据信息,并依次分析出读者感兴趣的信息数据,然后根据这些数据调整图书采购计划,订购读者喜欢的、热门的、实用的图书资源,减少购书的盲目性,进而改进图书馆的资源配置[4]。

笔者曾对所在图书馆2015、2016、2017三个年度的馆藏纸质资源流通情况进行统计分析,结果发现,图书馆的纸质资源利用率较低,且呈每年继续向下的趋势。这是因为网络环境下,读者获取信息资源的渠道已更为便捷而多元化。图书馆馆藏资源的利用情况,反映的不仅是其资源是否满足读者的需求,而且也是衡量其文献资源建设质量的重要指标。因此,图书管理者有必要找出差距,分析原因,有针对性地采取提高资源利用率的具体措施,比如加大对纸质资源的宣传力度,建立好书、新书推荐栏,提高管理人员的专业素养等。

而对图书馆馆藏图书借阅情况的调查分析表明,读者借阅最多的是文学艺术书籍,有14.2万册,占全年总借阅量的53%,说明文学和艺术类书籍是最受欢迎的。其次是语言类书籍,再次是政治经济类书籍,占全年借阅总量的13%。这是因为经济专业在笔者学校属于大专业,学生人数多,对专业有追求。因此,图书馆在下一步的文献资源建设中,必须考虑学生的兴趣和阅读倾向,调整文献文种结构和文献学科结构,以及新书年代结构,准确文献复本校对,剔除呆滞文献,建立更加科学完善的馆藏资源体系,保证图书馆资源的最大利用率,进一步提高服务水平,建立图书馆全面质量管理体系[5]。

3.2 信息查询的使用

传统的图书馆形式无法满足读者及时查询的需求,要快速获取信息就需进行加深扩展。而数据挖掘技术的使用可以对这些繁杂的数据进行详细分析。该技术可以利用读者的专业背景、学科等信息,根据读者借阅的规律,进行借阅兴趣、习惯和趋势的分析,为读者提供针对性文献资料,从而实现不断更新的推送服务,提高图书馆资源使用的效率。

3.3 Web科学导航系统的使用

数字读书馆储存的不仅有本馆的电子文献,同时也收集了很多来自Internet网络上的资源信息。Internet上的数据是非结构的、多样的、动态的,而挖掘技术可以对Web系统中大量的文档进行分类、摘要、关联分析,从中提取出自己想要的信息,并可以根据已经定义好的主题类型,对每个网页文档科学分类和标引,从而建立学科导航系统,为数字图书馆提供更加丰富的信息资源。现在的图书馆除了购买电子图书外,还会购进各种数据库,图书管理人员可以利用这些数据库,对有效的信息资源进行开发和利用,继而挖掘出信息资源的使用价值,而读者则可利用这些资源,收集资料和数据,用于满足自己的使用需求。根据笔者对所在学校图书馆电子资源的使用情况调查统计发现,虽然电子资源每年的登录量逐年增加,但整体利用率仍旧偏低,可见电子资源的综合利用情况很不理想。要提高电子资源的使用效能,窃以为,可以从以下几方面入手。

一是要坚持“读者第一,服务至上”的宗旨,以敏锐的观察判断力和选择信息的能力,以及熟练的资源检索能力,为读者提供高效、优质、多元化的信息技术服务。并加大宣传力度,展开引导工作,使更多读者了解图书馆的电子资源,扩大电子资源的影响力。

二是要建立咨询服务平台,全方位服务读者。可专门组织人员负责各个学科领域的科研需求分析、信息资源检索分析和报道、课题跟踪服务等咨询服务工作,从而推进咨询服务工作的进展。

三是要做好网络环境下的数字图书馆知识信息导航。帮助用户在网络海量信息中识别、找到他们需要的知识信息是图书馆员的重要职责,也是数字图书馆用户教育的重要内容。数字图书馆可建立专业网站,定期动态报道某一专业信息资源的更新情况,以及专业领域的学术动态,为专业用户提供及时的专业知识获取窗口等方式,建立专业化的知识信息导航系统。

四是要完善网络环境,提高读者检索能力。图书馆管理员应在保证检索工具的正常运转、扩大网络覆盖面、设置合法用户访问权限、培训读者、提供操作指南等方面,开展全方位、多层次的高水平服务。

3.4 建立好书推荐栏

每个学科都有其经典书籍,可将它们设为好书推荐栏,并在网页上进行相关设置,读者一输入关键字,检索系统就可以自动为读者推荐与关键字相关的、阅读量较高的图书,从而有效满足读者的借阅需求。另外,数字图书馆可以根据读者的专业进行分析,快速准确地搜索出读者需要的图书。该系统的建立可以节省读者寻找信息的时间,同时为读者提供更多有价值的图书。

综上,建立数字图书馆,就是利用挖掘技术,对各种潜在的信息数据进行搜索和分析,并推送给读者,从而满足更多读者的个性化需求。这样不仅减少了读者搜索图书的时间,同时也提高了读者对图书馆资源的使用率,实现读书馆管理服务水平的提高。

猜你喜欢
数据挖掘图书文献
Hostile takeovers in China and Japan
探讨人工智能与数据挖掘发展趋势
图书推荐
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
欢迎来到图书借阅角
班里有个图书角
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
高级数据挖掘与应用国际学术会议