曲婧
摘 要: 现有文献查检系统存在准确率低、系统运行能耗高以及耗时长等问题,为此,提出并设计基于PubMed数据库的数字图书馆文献查检系统。采用三层体系结构模式,将系统分为数据层、业务层与应用层。数据层存放从PubMed数据库中选取的数据,通过PCIe接口支持的通信技术与业务层交互;业务层设置SoC芯片HI3510作为处理器,对用户需求输入后形成的查检条件进行查询索引处理,通过输入文献题目、文献号、文献作者等关键词获取文献文本,结合Web Service服务查询本地PubMed数据库;最终通过应用层的用户界面显示文献查检结果,完成系统设计。实验结果表明,该系统的文献查检准确率高达到90%,系统运行能耗少,且查检耗时低。
关键词: 文献查检; 数字图书馆; PubMed数据库; 三层体系结构; 业务层设置; 文献获取
中图分类号: TN919?34; G254.9 文献标识码: A 文章编号: 1004?373X(2020)20?0112?03
Design of digital library literature search system based on PubMed database
QU Jing
(College of Optical and Electronical Information, Changchun University of Science and Technology, Changchun 130000, China)
Abstract: The existing literature search system has some defects, such as low accuracy, high energy consumption, long time consuming, etc. Therefore, a digital library literature search system based on PubMed database is proposed and designed. The system is divided into data layer, service layer and application layer. The data layer stores the data selected from PubMed database. The communication technology supported by PCIe interface interacts with the service layer. The SOC chip HI3510 taken as processor is adopted in the service layer to query and process the search conditions formed according to user input. The literature text is obtained by inputting literature title, document number, literature author and other keywords, and the local PubMed database is queried in combination with Web Service. The result of the literature query is displayed on the user interface of the application layer. The experimental results show that the accuracy of the literature search system is as high as 90%, its energy consumption is low, and its time consuming is short.
Keywords: document query; digital library; PubMed database; three?tier architecture; business tier setup; document acquisition
0 引 言
网络信息技术的飞速发展为很多传统领域带来了新的变革,数字图书馆是建立在信息技术上,利用现代化数字手段以高效有序的信息资源为核心,设计的一种分布式超大规模数字化信息系统[1?2]。文献是知识内容信息化的集合体,记录并展示了人类的进步和发展,尤其随着科学技术的进步,文献数量大幅度增加,成为数字化图书馆的重要检索内容之一[3?4]。原始文献的排列是无序的,要想快速找到用户需求的信息,就必须寻找到一种非常有效的检索方式,信息检索成为数字化图书馆应用的核心技术之一。建立信息检索平台能够为用户提供高效的检索手段,帮助用户快速、准确地实现文献查检,满足用户需求。由此可以看出,寻找一种高效数字图书馆文献查检手段,具有实际应用价值[5]。
黄容等人通过对数值知识元的深入分析,进行数字图书馆数值知识元识别、抽取、索引与检索,由此建立数字图书馆检索系统,该系统的数值知识利用效率较高,但运行耗时长[6];李默为寻找一种有效的数字图书馆检索方法,对移动视觉搜索技术进行了深入分析,融合个性化推荐服务,分析检索关键问题,能够提供较好的用户视觉体验,但该系统运行能耗高[7];李月琳针对游戏化信息检索系统中用户的偏好、态度及使用意愿进行分析,采用原型法设计GIRS纸面原型系统,发现用户最感兴趣的元素,最大程度满足客户、吸引客户,但该方法的准确率不足[8];李洁采用文献计量学分析,为埃博拉病毒研究提供文献寻找数据依据,采用PubMed检索文献,分析埃博拉病毒发展趋势,检索效果整体较好,但系统运行准确率还有待提高[9]。
为解决上述研究方法存在的问题,本文提出并设计基于PubMed数据库的数字图书馆文献查检系统。实验结果表明,该系统的文献查检准确率较高,系统运行能耗低,且运行耗时少。
1 系统整体架构
PubMed数据库是美国国家医学图书馆下属信息中开发的医学文本数据库,是公共数据查检平台,被广泛应用于研究中[10]。PubMed数据库包含2种记录模式:一是MEDLINE记录,使用主题词作为关键词进行信息查检;二是PREMEDLINE记录,用于临时存储未进行标记的文本数据,当操作者标记文本后,文本资料自动转移至MEDLINE数据库,灵活性较好。
本文从PubMed数据库中选取文献数据集作为研究对象,采用三层体系结构模式设计数字图书馆文献查检系统。三层体系结构模式层次明了,方便程序移动,具有较好的实际应用价值,能很好地满足系统设计需求。本文设计的系统架构如图1所示。
在图1所示的数字图书馆文献查检系统架构中,应用层与数据层不直接联系,通常将业务规则、数据处理等步骤设置在业务层,应用层与业务层通过通信技术连接,再由业务层与数据层通信、交互。这样能够有效缓解数据量或者用户访问量激增情况下系统的负载,较好地保护服务器[11]。
系统设计中,应用层设置用户界面,负责用户信息的输入和接收系统反馈信息。业务层负责访问数据库,设计文献查检步骤,计算、更新数据等,并反馈计算结果至用户界面端。数据层主要存放从PubMed数据库中选取的对象数据集。
2 系统硬件设计
2.1 PCIe接口设计
根据系统设计架构可知,应用层与业务层、业务层与数据层之间的连接均需依据通信技术开展,那么通信中必定需要使用计算机接口。因PCIe接口适用于较高数据量的计算机通信,因此本系统采用PCIe接口进行通信设计[12]。给出PCIe卡板电路框图如图2所示。
2.2 处理器设计
处理器是决定系统运行性能好坏的关键,根据本系统的实际查检需求,选取SoC芯片HI3510作为处理器。HI3510是一款集成图像处理器、编码器,能够在满足系统性能要求的条件下,最大程度降低系统硬件设计的复杂度,且在600 mW基础功耗的前提下,配置多级节能模式,降低系统能量消耗。
HI3510芯片主要负责完成系统控制,数据压缩编码以及网络数据传输等。通过设置HI3510芯片的对应通信接口,可以完成芯片内各模块的初始化工作,帮助后续系统准确运行。
3 系统软件设计
在硬件条件的支持下,按照三层体系结构模式设计系统软件流程,按照用户需求输入、形成查检条件,通过查检条件分类及计算机处理进行数字图书馆文献检查,实现查检结果。数字图书馆文献查检流程如图3所示。
由图3可知,用户发送文献查检需求命令后,系统应用层发送通信信息至业务层,形成查检条件,利用HI3510芯片,通过输入文献题目、文献号、文献作者等关键词,查询得到相关文献,显示文献文本。这时根据显示得到的文件查询全宗表A_QZH_DEF和磁盘库,获取文本文件的服务路径和存储地址,再通过调用Web Service服务,依据服务路径和存储地址查询本地PubMed数据库,返回用户界面显示文献,结束数字图书馆文献查检。
4 实验结果与分析
为验证本文设计系统的性能,进行实验分析,本实验采用.NET框架建立并运行Web Service服务,并运行多种语言环境。.NET框架中,所有编程语言都可以“一次编程,随处运行”,创建各种语言应用程序,同时容纳不同语言存在。本实验开展实验环境如表1所示。
实验数据选用PubMed数据库中10万个数据,其中5万个数据用于训练样本,另外5万个数据用作测试数据。在上述实验环境和数据设置下,给出以下指标:查检准确率、系统运行能耗、查检耗时。通过与传统系统对比,验证本文系统的有效性。
将本文系统与文献[6]、文献[7]系统的查检准确率进行对比,结果如图4所示。
由图4得,在刚开始测试时,本文系统的查检准确率为75%,随着测试数据量的增加,准确率逐渐增加到90%且趋于平稳。文献[6]和文献[7]系统的查检准确率先上升后下降,文献[6]最高达到60%,文献[7]最高达到80%。由此可见,本文系统的查检准确率明显高于文献[6]、文献[7]系统,且系统测试过程平稳,稳定性较强。
以系统运行能耗为指标,对比本文系统与文献[6]、文献[7]系统,结果如图5所示。
分析图5可知,本文系统的运行能耗在30 J以下,文献[6]系统运行能耗可达到60 J,文献[7]系统运行能耗可达到75 J。从图中可看出,本文系统,能具有明显的优势,这是因为本文系统设计中,硬件部分选取SoC芯片HI3510作为处理器,采用多级节能模式运行,大大降低了系统运行能耗。
将本文系统与文献[6]、文献[7]系统的查检耗时进行对比,结果如表2所示。
分析表2可以看出,本文系统的查检耗时在10~15 s之间,平均耗时为12.6 s;文献[6]系统的查检耗时在20~26 s之间,平均耗时为24.0 s;文献[7]系统的查检耗时在23~35 s之间,平均耗时为28.4 s。根据数据分析可以看出,本文系统查检耗时最低,优于其他文献,主要是因为本文系統设计中,采用三层体系架构,层次明了,灵活性较好,可最大程度满足用户需求,避免无效运行,节省系统运行耗时。
5 结 论
数字图书馆文献查检是目前被广泛使用的一种技术,查检系统的好坏直接影响图书馆电子用户体验。本文提出并设计基于PubMed数据库的数字图书馆文献查检系统,采用3层体系结构模式将系统分为数据层、业务层和应用层。硬件部分主要对PCIe接口处理器HI3510进行了分析,软件部分给出了数字图书馆文献查检系统流程。实验结果表明,本文设计系统具有较好的查检性能,优于传统方法。
参考文献
[1] 孙雨生,李万蓉,郝丽静.国内数字图书馆信息可视化应用进展[J].计算机与数字工程,2019,47(1):140?145.
[2] 盛先锋.基于聚类优化的数字图书馆协同过滤个性化推荐服务研究[J].中国中医药图书情报杂志,2019,43(3):37?40.
[3] 蓝燕,曾树洪.数字图书馆网络及服务方案设计[J].现代计算机(专业版),2017(16):88?91.
[4] 高兴辉.数字图书馆分类文献数据关联规则提醒系统设计[J].电子设计工程,2019,27(13):66?69.
[5] 谷参.基于分布式结构的图书馆信息检索服务系统研究[J].现代电子技术,2017,40(1):83?85.
[6] 黄容,何杨煜琪,王忠义,等.数字图书馆数值知识元检索系统设计[J].图书情报工作,2018,62(14):125?132.
[7] 李默.数字图书馆个性化移动视觉搜索机制研究[J].图书馆理论与实践,2019(2):107?112.
[8] 李月琳,何鹏飞.游戏化信息检索系统用户研究:游戏元素偏好、态度及使用意愿[J].中国图书馆学报,2019,45(3):62?78.
[9] 李洁,武桂珍.基于GoPubMed对埃博拉病毒研究文献的数据分析[J].病毒学报,2018,34(4):565?569.
[10] 李彩,杜冰,徐虹,等.我国中文医学期刊在PubMed数据库中的收录及数据展示分析[J].中国科技期刊研究,2018,29(7):728?732.
[11] 贾贺,艾中良,贾高峰,等.基于Solr的司法大数据检索模型研究与实现[J].计算机工程与应用,2017,53(20):249?253.
[12] 马佳立.面向大数据的数字图书馆移动视觉搜索机制及应用[J].自动化技术与应用,2019,38(5):179?182.