●邓 娉(广州市体育职业技术学院 图书馆,广州 510650)
图书馆文献检索系统是图书馆信息管理系统的一个重要组成部分。图书数量的急剧增长以及各类新型数字文献资源的不断出现,对传统图书馆管理系统的检索效率提出了严峻的挑战。面对众多的新型数字文献资源,读者常常感到无所适从,不知道怎样才能找到自己需要的信息,他们希望能够通过统一的界面,方便、快捷、准确地检索到图书馆的所有资源。因此如何整合传统印刷型文献资源与现有各种数字资源,并与不断增长的数字资源无缝整合,为读者提供统一的检索平台,提供个性化服务,成为现在图书馆信息系统建设中的一个重要课题。本文将数据挖掘和知识发现技术应用于图书馆信息管理系统的检索系统中,引入随机着色Petri网技术,对图书馆文献检索系统重新建模,实现系统的动态模拟;对图书馆各种新型文献资源的检索方式进行整合,提出了一种基于智能搜索引擎及读者历史借阅行为分析的客观评价方法。[1,2]
Petri网是一种常用的图形化动态计算机系统建模工具,作为一种图形化的工具,它将图形描述和数字分析相结合,兼具图形方法的直观性和逻辑方法的概括性,所以它特别适合于描述具有并行、并发、同步、资源分配等特性的复杂系统。目前Petri网已经被广泛地应用在各个领域进行系统的建模、分析和控制。Petri网在线路系统、通信协议、软件工程、人工智能、柔性制造系统、过程控制系统以及分布式的实时建模等方面都起着越来越重要的作用。[3]
但是,用基本Petri网对复杂系统进行建模与分析,往往因为状态空间庞大、复杂以及缺少时间表示功能而难以实现。因此,在描述复杂系统时一般多采用经过扩展的高级Petri网,如随机Petri网(SPN,Stochastic Petri net)、着色 Petri网 (CPN,Colored Petri net) 等,但是同基本Petri网一样,采用随机Petri网模拟的系统维数较高,对系统进行描述时会出现所谓“状态空间爆炸”现象。而随机着色Petri网(ScpN)是具有层次性的高级Petri网,它有机结合了数据结构和层次分解,具有赋予令牌颜色和层次网络的特点:一是标记的颜色可以携带信息,代表任意复杂的数据,大大简化了网络的复杂度;二是利用层次结构,可以从整体到局部,逐步细化,从而具有更强的可重用性和可操作性。[4-6]2文献检索系统分析
目前各图书馆除传统的印刷型图书外都通过购买数据库、自建数据库的方式建立了大量的数字文献资源,但由于这些数字资源建设的不同步或各提供厂商采用的技术不同,各数字资源都有自己的数据机构、组织方式、查询方式以及显示界面。读者为了查阅资料,不得不分别进入不同的查询系统,熟悉每个数据资源的检索方式和终端浏览软件。另外,各种多媒体音视频文献资源没有统一、有效的检索方法,这让不是专门从事检索工作的读者往往无所适从。所以,对图书馆的各类型文献资源检索方式进行整合,就成为图书馆亟待解决的重要课题。
图书馆的文献检索系统可以借鉴互联网搜索引擎的技术方法,应用随机着色Petri网技术,分析各类数字文献资源,重构数据搜索模型,建立适合图书馆馆藏特点的搜索算法。
在影响检索效率的因素中,检索结果的排序方式是最重要的一项。统计显示,搜索用户一般只看到检索结果的前5页。按照信息检索理论的观点,检索效率主要通过查全率和查准率两个指标来体现。从用户的角度来说,查准率即检索结果的有效性,比单纯的检索结果数量更有意义。信息检索中的许多问题都可以形式化为排序问题。排序学习是近年来提出的用统计机器学习的方法进行排序模型建模的技术,已成为信息检索领域的热点。此外,数据挖掘技术在商业等领域得到了很好的应用。结果相关度排序、逻辑查询、结果中查询等技术提高了搜索的准确度;而重要程度排序、读者行为分析等技术更加符合读者的心理。图书馆的信息服务模式与市场营销模式有很多相似之处,通过收集、加工和处理大量的读者行为信息,确定特定借阅群体的兴趣和借阅习惯,可以推断出未来的借阅行为,能够为图书馆提高主动服务技术提供依据。
首先分析系统,确定系统的库所和变迁,建立系统的PN模型;然后在变迁的可实施与实施之间加入连续的随机延迟时间,建立系统的SPN模型;再根据着色Petri网的思想,合并相关的同类项,建立系统的SCPN模型。
对借阅数据的分析表明,读者借还科技图书的情况主要可以分为以下4种∶
(1)如果阅读后发现某本书并不适合自己,会在较短的时间(一两天)内归还图书,这种情况常见于一些发展较快的学科,如计算机类,早期的图书已不适用,还有一些书名容易误导读者的图书;(2)如果某本书比较适合,则会仔细阅读,读完后归还,这种情况常见于课程前期阅读材料,借期一般在4-10天;(3)如果某本书参考价值较大,如习题集,则会保留较长时间,甚至续借;(4)由于其他原因,造成的延后还书,甚至所借阅图书丢失。
上述的第(2)和第(3)种情况属于正常借阅,这里希望借助于排序算法解决的是第(1)种情况。其目标是,使得属于第(1)种情况的图书在查询结果中排在后面。
排序算法的基本原理是:设计一个评价系数,使这个系数在第(1)种情况下缓慢增长,而第(2)和第(3)种情况下较快增长,查询结果按评价系数排序,从而实现将“适合的”图书推荐给读者的目的。由此,可以将评价系数设计为:将每条借阅记录的实际借阅时间除以借阅者可借阅时间并求和,这样就可以实现上述目标。
虽然第(4)种借阅情况会对评价系数造成干扰,但由于图书丢失等原因长时间不归还,对应图书的评价系数较大,但在算法中可采用根据还书记录去匹配借阅记录的方法来防止这种干扰。图书丢失后,因为没有还书记录,此次借阅不会影响到评价系数。而第(1)种情况下,虽然借阅次数比较多,但由于实际借阅时间除以借阅者可借阅时间后,该值会非常小,而从读者还书到重新上架还有一段时间,这些都使得评价系数增长缓慢。在第(2)和第(3)种借阅情况下,评价系数的增长都比第(1)种情况要快,在算法实际测试中,笔者发现,第(3)种情况下,其评价系数增长要快于第(2)种情况。这个现象可以通过对借阅时间进行检测,检测其超过一定数值后乘上一个小于1的系数来进行调整。
基于上述原理,排序算法设计如下∶
大多数图书自动化管理系统均有记录借阅日志的功能,根据图书的借阅日志,对每本科技图书的借阅信息进行数据挖掘处理。
在图书自动化管理系统的书目信息表中增加评价系数字段PJXS,将每本图书预处理后得到的评价系数值填入对应的记录。对每本书根据历史借阅信息求得其评价系数。
处理流程为:第一步,将图书自动化管理系统中记录的借阅日志导出到SQL Server的日志表中;第二步,将导出的日志中的还书记录逐条处理,求得书目信息表中各记录的评价系数字段PJXS值;第三步,返回到第二步,直至所有借阅日志被处理完成。
[1]楼玉萍.基于B/S模式的计算机基础考试系统的研究和实现[D].长沙:国防科技大学,2005.
[2]李志明.基于Web服务的在线考试系统应用及研究[D].广州:广东工业大学,2005.
[3]于晓鹏.计算机建库理论与技术[J].松辽学刊,1998(1)∶70-71.
[4]胡维芳.论项目反应理论[J].高等理科教育,2005(3)∶66.
[5]周雪燕.网络在线考试系统的开发及应用研究[D].西安:陕西师范大学,2006.
[6]林雪明.试题难度系数确定数学模型的建立与实现[J].杭州应用工程技术学院学报,2001(3)∶48-49.