查收查引系统需求分析和设计要点探讨

2015-12-02 00:41马芳珍

大学图书馆学报 2015年4期

关键词：委托检索流程

□马芳珍

查收查引系统需求分析和设计要点探讨

□马芳珍

从图书馆和用户的角度分析论文查收查引服务的现状和存在的问题，在与现有的查收查引系统对比分析的基础上，提出新的查收查引系统的设计要点。

查收查引系统系统需求分析系统设计

论文的收录和引用的检索服务是国内图书馆的一项特色服务。国内的课题申报、职称评定、成果评定和科研评估工作，都以论文的数量和质量作为重要的参考依据。“论文被收录与引用报告”在一定程度上反映了申报人科研产出的影响力，成为奖励、评选、基金申报等项目的重要参考资料[1]。

目前国内图书馆的查收查引服务量很大，仅以北京大学图书馆为例，据统计，2011年至2013年的论文检索总篇数约为3.7万篇。同时，由于查收查引工作多以手工为主，效率较低，特别在检索高峰期，既无法满足用户的全部需求，也影响到服务质量。一言以蔽之，无论对图书馆还是用户，手工化工作流程有很多难以克服的问题，只有通过系统化和智能化的系统支撑服务，才能解决现有问题[2]。

1 图书馆面临的问题

图书馆查收查引工作需要大量重复性操作，目前急需解决的问题是：

1.1 检索结果不能重复使用

由于高校图书馆查收查引服务的用户群基本固定，因此许多委托人会在几年内连续多次委托查询。根据北京大学图书馆2011-2013年的统计，三年有过两次以上委托的委托人有341名。英文文献检索量的统计按照平台进行统计：包括WOS(Web of Science)平台和EI(The Engineering Index)平台，其中WOS平台包含的数据库有SCI ( Science Citation Index)、SSCI ( Social Science Citation Index) 、A&HCI( Arts Humanities Ctation Index)、CPCI-S( Conference Proceedings Citation Index-Science)、CPCI-SSH (Conference Proceedings Citation Index-Social Science & Humanities)；中文文献的检索量较小，因此将“中国科学引文索引”和“中文社会科学引文索引”两个平台进行了合并统计。详细统计见表1：

表1 2011—2013年检索文献统计

假设委托人每次委托论文清单的变动率为20%估算，WOS收录、EI收录、WOS引用、中文收录和中文引用的重复检索量分别为10352篇、5952篇、9806篇、2973篇和2713篇。对照北京大学图书馆2011-2013年的委托总量，如图1所示，重复检索文献占全部检索量的比例分别为31.62%、34.66%、32.36%、40.16%、38.53%。

图1 重复文献检索比例

假设在更长的时间内统计，根据科研工作者的成长过程，多次委托的比例将更高。根据上述2011-2013年重复委托文献检索量的估计，如果检索结果可以重用，经过3年左右的数据积累后，将可为图书馆节约大于30%的人力资源。手工条件下，由于委托人对清单进行部分变更、逐条核对新旧委托清单非常耗时，因此一般工作人员不会利用以前的收录检索结果。而对于引用检索，虽然重复文献的检索词、检索策略是完全相同的，但由于检索的中间环节无法记录，因此也需要重新检索。

1.2 多库分头检索导致工作量倍增

委托人通常会委托同一文献在多个库中检索收录和引用情况，使检索工作量成倍增加。以英文论文为例，如工科的论文通常要求检索SCI、CPCI-S、EI库，文理交叉学科如心理学、地理、环境科学等方面的论文通常要求检索SCI、SSCI、CPCI-S、CPCI-SSH库，艺术类学科的论文则需要检索SSCI、A&HCI和CPCI-SSH库等等。因此，一份20篇论文的委托单，经常需要付出40篇论文的检索工作量，加重了高峰期的供需矛盾。根据北京大学最近3年的统计数据，委托同时检索SCI和EI库的论文数量为14733篇，占收录检索总量的39.37%。

1.3 论文清单不规范增加检索和查重的工作量

委托人提供的委托清单经常会有错误，如题名、刊名、卷期、作者等；还经常会缺少很多信息，如合作者、卷期、页码等。为了尽可能减少漏检，检索人员需要对同一文献进行多种检索式的组合检索，实际上就是要求对同一文献进行多次检索，使检索的工作量翻倍增加。并且论文委托清单还会出现文章重复的情况，需要进行人工查重。在查收查引过程中，工作人员的很多时间实际上都用在整理、查重和获得文章的正确信息上，这个过程不仅繁琐，还需要反复和用户确认。但是由于很多委托清单是由学术秘书代为整理，因此清单错误和部分信息缺失几乎是不可避免的。

1.4 检索结果整理繁琐和数据库平台不稳定造成时间浪费

SCI、EI和中文库平台通常都有信息导出接口，但导出信息只是简单的文本格式，需要工作人员摘取相应的字段，填入检索结果表单中，引用检索还要区分他引和自引。这一过程目前北京大学图书馆已经通过小工具实现了自动化。

另外，对于委托检索的论文数量较大，时间紧的委托单，例如院士评审、团队创新的委托单，通常需要多个馆员分工检索，再统一汇总结果。例如一个180篇的SCI库收录引用和EI库收录检索委托单，由5个人完成，则每个人都会生成SCI收录结果、SCI引用结果、EI收录结果和SCI他引、自引统计数据信息，汇总人需要将25份检索结果进行汇总核对和统计，这些工作都因为没有自动化统计平台而额外产生的。

另外，有些数据库平台，由于网络、技术架构等因素，检索速度较慢，使得检索后的等待时间增加，降低了工作效率。

2 用户面临的问题

手工检索工作的过程使得信息共享困难、沟通不流畅，导致用户也面临许多问题。

2.1 无法及时了解委托进度

委托单通过邮件发送到邮箱后，用户无法及时了解进度，如邮箱是否收到、分配以及检索进度。特别是高峰期时论文数量大的委托，完成报告的时间较长，用户只能通过电话和邮箱询问，工作进度不透明。

2.2 报告结果不易核对

图书馆根据委托论文清单提供检索报告，报告中主要包含数据库的论文收录和引用情况。用户需要对比原委托单，才能知道哪些论文未被收录。例如用户委托检索80篇论文，有70篇被SCI收录，则检索报告提供一个70篇论文收录情况的报告，而用户需要根据检索报告对比委托清单，核对哪些文章未被收录。

2.3 论文被漏检

检索时，工作人员通常根据习惯使用的一、两种检索式进行检索，尤其是在高峰期，任务繁重，不可能强制要求工作人员用三种以上的检索式对同一文章进行检索。因此在委托清单有误或是不规范时容易造成漏检。尤其是在检索会议论文的引用情况时，经常会出现引用信息不规范的情况，增加了漏检的概率。

2.4 论文检索报告更新困难

有些用户需要更新同一论文清单的收录引用情况，以便在不同的时间用于申请项目或其他用途。但是由于目前图书馆的手工操作流程，报告更新的工作量几乎相当于重新检索。对于用户来说不仅需要承担重复检索的费用，而且在检索高峰期，一般会优先安排新检索文章的委托，用户希望快速更新的需要往往不能全部满足。

3 现有工具分析

目前已经有一些论文查收查引的工具或者平台，但是由于功能和设计的原因，无法完全解决上述问题。

3.1 北京大学图书馆的查收查引工具

北京大学图书馆的工具是单机版的小程序，主要实现了检索结果的格式整理和统计功能。该软件包括ISI收录、EI收录、ISI引用和中文收录引用四个模块。可以将数据库导出的TXT文本转换成查收查引的结果表格，并统计检索结果，见图2。

图2 查收查引整理工具

该工具主要实现了查收查引过程中检索论文信息的格式化和统计的功能，能够简化部分工作，但是不能从根本上解决图书馆和用户的问题；并且因为工具是单机版，不能支持分工协作的环境。遇到多人分工协作检索文献的情况，仍需要通过手工将各自的检索结果进行整理和汇总。

3.2 中国科学院图书馆的查收查引工具

中国科学院图书馆的的查收查引工具是网络版的，主要实现了对论文收录和引用的自动检索、检索结果格式整理和统计等功能。其中论文和收录引用检索步骤需要部分人工参与。系统需要按照一定格式整理的文章清单，导入文章清单后可自动进行收录和引用的检索，并进行检索结果格式的整理和统计。2013年底，北京大学图书馆对该系统进行了试用，发现几个主要问题：(1)论文收录检索策略的制定过于简单，容易造成漏检和误检；(2)引用检索模块和收录检索模块是割裂的，不能利用收录检索的信息修正论文清单，从而完善引用检索；(3)检索信息不可重复利用，比如在检索中进行的人工对比和确认信息无法被系统用于下一次同一文献的检索。(4)工作流程设计简单、不流畅，用户参与度低。(5)生成的报告格式单一、缺少查重、多种排引选择、年代限定等功能。

2014年中国科学院图书馆的查收查引系统又进行了升级，主要解决检索环节和报告生成环节的问题[2]。

4 查收查引系统的设计思路

查收查引系统的设计有两个重点：第一是工作流程的设计，第二是检索模块的检索策略设计。

4.1 查收查引系统的流程设计

查收查引系统的工作流程设计应把委托用户纳入到系统中，实现委托用户、任务管理员和查收引工作人员的数据共享和信息交流。同时，在流程设计中还要考虑流程的可逆性和循环性，简化手工流程的无效环节。以北京大学为例，传统的论文查收查引服务流程大致分为10个步骤，具体见图3，在查收查引流程设计中应该充分考虑以下原则。

(1)工作流程设计中应重视考虑用户的参与和信息共享。

在委托检索的初期和后期，用户参与可以使很多工作简化。在用户提交委托阶段，如果用户能够先选取系统中以往委托的文献，再增补文献，就会非常方便工作人员重复利用以前的检索成果。但是如果用户没有参与到系统中，则只能提交一个整体委托清单，其中可能有新有旧，工作人员如果想重复利用以前的成果，需要先对委托清单逐一检索核对。在后期，用户核对检索信息和报告生成阶段，通过系统参与，会使信息沟通更加方便。

用户的参与不仅能够减轻工作人员的负担，而且对用户也是一件有益的事情，用户可以方便地提取和导出他委托过的已完成检索的论文的标准信息，不用再为整理过去3年、5年或更多年的论文清单费神。用户可以通过系统了解检索委托的进度、更为方便地核对报告结果，有些用户对检索报告中的论文排列顺序有特别要求，如按照年代和引用次数排列、按照年代和第一作者排列等，这些要求往往很难描述和通过单一的排序功能解决。如果系统提供用户接口，在限制检索信息修改的同时，给予用户调整报告排序的权限，对用户来说更为便利。

图3 查收查引服务流程

(2)工作流程设计要具有可逆性和循环性。

论文的查收查引工作并非完全按步骤执行，中间可能需要多次反复。比如在论文清单初检后，如果清单有问题，需要重新和用户确认；用户核查报告后，如果发现有错检和漏检的情况，也要重新进行检索；报告领取后，用户可能由于其他原因，需要再次领取报告副本，或者对报告本身稍作修改，如只选择报告中的部分文献，需要再领取一份报告等，这些都要求流程要具有可逆性，也就是说，工作流程要具有循环性，可循环利用检索结果。

(3)工作流程的设计应简化手工流程的无效环节。

以北京大学图书馆为例，查收查引委托工作的管理仍以手工为主。在委托初期要对委托单进行登记，在委托后期又需要对收费情况进行登记。前后的登记是割裂的，各有各的登记体系，无法一一对应。因此设计流程时应统一进行考虑，建立一对多的关联关系，以便于整体查询。其次，手工登记很难精确地统计人员的工作量。比如为1篇论文检索1个库和检索多个库的工作量是不同的；期刊论文较会议论文规范，也更易检索。这些差别可以在统计时折算到工作量中。再者，对个别的委托后不领取报告、领取报告后拖欠费用的情况，通过提醒、黑名单管理等功能的设计，将更方便地进行催缴和管理工作。

4.2 查收查引系统的关键功能设计

查收查引系统应着重解决耗时多、重复性劳动多等影响检索工作效率的问题，这也是系统的核心功能。检索模块功能设计的难点并不是在论文委托信息和引用信息完全正确、规范的情况下进行数据库检索的操作，而是在委托信息不规范或论文的引用信息不规范和错误的情况下检索数据库并通过容错机制获得良好的结果。要获得“良好的结果”，必须有人工干预和确认，因此在设计之初就需要做一个工作量的衡量，在机器工作和人工干预之间求得平衡。

(1)检索策略的多条件组合设计。

如果论文的标题有误或来源期刊不规范就无法获得检索结果，那么论文的检索策略显然是失败的。因此论文检索策略设计的根本在于通过几种方式的组合检索达到容错的目的。检索策略的设计要考虑检索库、论文种类和论文年代的特点。例如期刊论文和会议论文的检索应有所区别，因为期刊论文更易获得规范的来源信息，而会议论文的来源——会议名称往往是难以规范的。再如SCI库中2006年以后的论文引用信息更为完善，不仅有来源信息还有论文的标题，而较早期的论文引用信息往往没有提供引文的标题。检索策略的设计应在细致考虑这些特点的前提下，制定有效的组合策略，在准确和容错之间获得一个平衡的结果，使检索结果中包含确定的信息和可能的信息，再通过有限的人工干预加以处理。

以SCI数据的收录检索为例，如表2所示，先进行两个基本的检索式，如无法获得结果，再对题名等字段进行模糊检索。

图4 查收查引系统的人工干预界面

SCI数据库检索策略策略1检索式:题名策略2检索式:发表年+作者+期刊名补充策略检索式:题名变形

(2)恰当的人工干预节点选择。

虽然论文的查收查引工作一直以大量的“重复性劳动”著称，但不能否认工作中仍然有大量的判断工作要依据人工的经验和智能。究其原因只有一个，就是信息错误和不规范。从用户方面来看，很难避免提供的信息是错误的或不规范的。例如，数据库中的标题为“Double-pi”，而用户提供的标题为“double-π”，这在人工处理时非常容易判定，而机器则很难，除非有一个不断增长的足够强大的知识库。类似的问题除了在标题中容易出现，在作者缩写、期刊信息中也会出现。同样，在数据库中，信息也存在错误和不规范的情况，例如标题中的分子式常常去掉下标或用其他替代形式。所以期望用户提交完全合乎数据库规范的数据是不现实的，这也就意味着期望通过计算机实现论文查收引工作的完全自动化也是不现实的。系统在初次检索后就应当进行人工判断，通过人工校对来获得准确的文献信息。如图4。

当然人工规范信息和校对的时间要根据具体情况而定，信息规范的论文可以先用系统检索，再进行规范；反之，则应先进行规范。另外，有些论文可能需要通过收录检索矫正和补充信息，再进行引用检索。

5 结束语

查收查引服务是国内的一项特色业务，既无法借鉴国外经验，也无现成的国外系统供图书馆购买和使用。因此迫切需要开发出适合国情、馆情和用户需求的服务系统。基于前文提出的系统需求分析和设计理念，借助CALIS的研发力量，北京大学图书馆已经完成了查收查引系统的一期开发和初步测试工作，此系统旨在最大程度上实现查收查引工作的自动化，提高效率，改善用户体验。不仅如此，通过该系统还能够积累学者发表正式文献的数据，既可以为委托学者进行科研成果分析提供一定的数据支持，也可以成为机构库的有效补充。尽管目前系统还存在一些待完善之处，但已经迈出了一大步，故愿与同行分享，更希望能抛砖引玉。

1 樊亚芳,陈锴. 利用Excel和EndNote Web提高论文查收查引工作效率[J]. 图书馆杂志,2013(1):32-34,60

2 王学勤,郝丹,郑菲,赵文忠,周津慧. “查收查引报告自动生成系统”应用实践研究[J]. 图书情报工作,2014,58(16):131-137

3 王晓丹,田永梅,孙雷. 提高查收查引服务效率的实践与探讨——以哈尔滨工业大学图书馆为例[J]. 高校图书馆工作,2014(4):55-56,92

Ma Fangzhen

We analyze and discuss the current situation and problems of cited reference retrieve service from the perspective of the libraries and library users. Then based on the comparison with state-of-the-art cited reference retrieve systems, design of a novel system is presented.

Cited Reference Retrieve Service System; System Request Analysis; System Design

北京大学图书馆，北京，100871

2015年3月17日Requirements Analysis and Design of a Cited Reference Retrieve System

*通讯作者：马芳珍，ORCID：0000-0002-1089-2220，mafz@lib.pku.edu.cn。