倪伟燕
(菏泽学院,山东 菏泽 274000)
基于数据挖掘技术为主的数字图书馆是在互联网环境下建立的,可使读者摆脱空间和时间的限制,将传统图书馆转移到了某种介质上,读者可以通过移动设备,获取图书馆的各种资源。数字图书馆能满足读者随时随地进行信息检索和图书阅读的要求,下面针对基于数据挖掘技术的数字图书馆建设进行具体论述。
数据挖掘技术就是使用算法在大量的数据中搜索隐藏的信息。数据挖掘也是发现知识的过程,是通过科技,从繁杂冗长的数据中找到潜在的信息,再通过转换分析,进行模型化处理,从而获得自己需要的数据,最终为数据管理决策提供依据。同时该技术也可以和人工智能、数据统计、数据库等技术相结合进一步深入挖掘下去。
美国加州大学的Michael Cooper教授通过数据挖掘技术对大学图书馆日志数据进行分析,对不同类型的读者在图书馆逗留的时间和规律,建立了一个数学模型,通过聚类对读者的行为规律进行分析,同时预测未来的发展情况。芝加哥大学的Swansan开发了Arrowsminth软件系统,可对每种文献之间存在的关系进行分析,从而为读者提供更有价值的信息知识。Papatheodorou等人将数据挖掘技术使用到图书馆信息管理中,为图书馆建立数据管理对策和进行馆藏提供了更多的科学依据。
随后出现的关联挖掘理论技术,实现了图书馆信息个性化推送服务。之后2011年,有学者提出使用数据挖掘技术建立针对性的推荐系统,对读者访问图书馆网站的时间、偏好、浏览情况等进行分析,总结读者选择信息的关联性和规律性,从而在网页上实现信息推荐。2012年,有学者在云计算基础上建立图书馆数据挖掘系统,为用户提供平台数据共享集和算法,从而实现开放性的图书馆数据共享系统[1]。同时也有人对图书馆读者的行为进行分析,建立根据读者的行为和偏好建立数据挖掘技术模型。2014年逐渐实现移动性的数据挖掘技术数字图书馆[2]。
数据包括了:读者的行为数据,也就是读者在高校图书馆访问OPAC时生成的日志,其中涵盖了读者检索词、电子书下载、链接点击、电子资源访问等信息;读者借还数据,即读者借阅的各类书籍名、次数、欠费时间、类别、索书号等相关性的流通日志数据。
日志文件属于非结构式的文本文件,数量比较多,而且没有统一性。在分析数据之前需要从非结构数据中收集结构化数据,再完成预处理。先要进行数据清洗,即去除冗余数据、缺失数据、噪声过滤等。再进行数据转换,就是缩短数据的维度,降低数据挖掘时需要分析的变量数和特征[3]。
根据读者聚类和分类分析,总结出读者的个性化需求,从而建立关联性规则模型。先要进行分类和预测,寻找具有预测性的信息,建立重要数据模型,或是预测数据模型。再进行关联规则分析,分析读者借阅特征和图书间的关联性。
读书馆每年采购文献的经费有限,如果能在数字图书馆基础上对流通日志、馆藏书目数据和检索请求等信息进行分析,分析文献信息的使用率、读者感兴趣的模式,同时预测未来读者的兴趣变化,以及未来图书馆文献采购趋势,这样就能合理订购文献资源。笔者所在的图书馆设立了技术部,主要负责图书馆计算机管理系统的研究、管理以及应用开发等工作,同时在资源采集方面,配合采编部做好资源购置工作。为了保证有限的资金能最大限度地得到合理利用,就需要运用数据挖掘技术,对图书馆的流通日志、馆藏数据、检索信息等进行分析,找出流通量比较大的书籍数据信息,并依次分析出读者感兴趣的信息数据,然后根据这些数据调整图书采购计划,订购读者喜欢的、热门的、实用的图书资源,减少购书的盲目性,进而改进图书馆的资源配置[4]。
笔者曾对所在图书馆2015、2016、2017三个年度的馆藏纸质资源流通情况进行统计分析,结果发现,图书馆的纸质资源利用率较低,且呈每年继续向下的趋势。这是因为网络环境下,读者获取信息资源的渠道已更为便捷而多元化。图书馆馆藏资源的利用情况,反映的不仅是其资源是否满足读者的需求,而且也是衡量其文献资源建设质量的重要指标。因此,图书管理者有必要找出差距,分析原因,有针对性地采取提高资源利用率的具体措施,比如加大对纸质资源的宣传力度,建立好书、新书推荐栏,提高管理人员的专业素养等。
而对图书馆馆藏图书借阅情况的调查分析表明,读者借阅最多的是文学艺术书籍,有14.2万册,占全年总借阅量的53%,说明文学和艺术类书籍是最受欢迎的。其次是语言类书籍,再次是政治经济类书籍,占全年借阅总量的13%。这是因为经济专业在笔者学校属于大专业,学生人数多,对专业有追求。因此,图书馆在下一步的文献资源建设中,必须考虑学生的兴趣和阅读倾向,调整文献文种结构和文献学科结构,以及新书年代结构,准确文献复本校对,剔除呆滞文献,建立更加科学完善的馆藏资源体系,保证图书馆资源的最大利用率,进一步提高服务水平,建立图书馆全面质量管理体系[5]。
传统的图书馆形式无法满足读者及时查询的需求,要快速获取信息就需进行加深扩展。而数据挖掘技术的使用可以对这些繁杂的数据进行详细分析。该技术可以利用读者的专业背景、学科等信息,根据读者借阅的规律,进行借阅兴趣、习惯和趋势的分析,为读者提供针对性文献资料,从而实现不断更新的推送服务,提高图书馆资源使用的效率。
数字读书馆储存的不仅有本馆的电子文献,同时也收集了很多来自Internet网络上的资源信息。Internet上的数据是非结构的、多样的、动态的,而挖掘技术可以对Web系统中大量的文档进行分类、摘要、关联分析,从中提取出自己想要的信息,并可以根据已经定义好的主题类型,对每个网页文档科学分类和标引,从而建立学科导航系统,为数字图书馆提供更加丰富的信息资源。现在的图书馆除了购买电子图书外,还会购进各种数据库,图书管理人员可以利用这些数据库,对有效的信息资源进行开发和利用,继而挖掘出信息资源的使用价值,而读者则可利用这些资源,收集资料和数据,用于满足自己的使用需求。根据笔者对所在学校图书馆电子资源的使用情况调查统计发现,虽然电子资源每年的登录量逐年增加,但整体利用率仍旧偏低,可见电子资源的综合利用情况很不理想。要提高电子资源的使用效能,窃以为,可以从以下几方面入手。
一是要坚持“读者第一,服务至上”的宗旨,以敏锐的观察判断力和选择信息的能力,以及熟练的资源检索能力,为读者提供高效、优质、多元化的信息技术服务。并加大宣传力度,展开引导工作,使更多读者了解图书馆的电子资源,扩大电子资源的影响力。
二是要建立咨询服务平台,全方位服务读者。可专门组织人员负责各个学科领域的科研需求分析、信息资源检索分析和报道、课题跟踪服务等咨询服务工作,从而推进咨询服务工作的进展。
三是要做好网络环境下的数字图书馆知识信息导航。帮助用户在网络海量信息中识别、找到他们需要的知识信息是图书馆员的重要职责,也是数字图书馆用户教育的重要内容。数字图书馆可建立专业网站,定期动态报道某一专业信息资源的更新情况,以及专业领域的学术动态,为专业用户提供及时的专业知识获取窗口等方式,建立专业化的知识信息导航系统。
四是要完善网络环境,提高读者检索能力。图书馆管理员应在保证检索工具的正常运转、扩大网络覆盖面、设置合法用户访问权限、培训读者、提供操作指南等方面,开展全方位、多层次的高水平服务。
每个学科都有其经典书籍,可将它们设为好书推荐栏,并在网页上进行相关设置,读者一输入关键字,检索系统就可以自动为读者推荐与关键字相关的、阅读量较高的图书,从而有效满足读者的借阅需求。另外,数字图书馆可以根据读者的专业进行分析,快速准确地搜索出读者需要的图书。该系统的建立可以节省读者寻找信息的时间,同时为读者提供更多有价值的图书。
综上,建立数字图书馆,就是利用挖掘技术,对各种潜在的信息数据进行搜索和分析,并推送给读者,从而满足更多读者的个性化需求。这样不仅减少了读者搜索图书的时间,同时也提高了读者对图书馆资源的使用率,实现读书馆管理服务水平的提高。