林建
摘 要:本文介绍自动化查收查引系统的主要功能,以CALIS和NoteFirst系统为例对比分析自动查收查引系统的检索功能,最后提出自助查收查引系统的改进建议。
关键词:查收;查引;检索证明;CALIS;NoteFirst
一、自动查收查引系统概述
图书馆自动查收查引系统是全流程自动化的系统,不仅实现了任务的登记、状态的自动更新,任务的管理和统计,同时实现了用户任务提交、收录引用检索、报告、委托书形成的自动化和网络化,可大大提高工作效率,减少馆员的工作量。图书馆自动查收查引系统通常由用户查收查引系统服务器和云服务器两部分组成。用户在线提交任务之后,任务会自动发送到云服务器进行任务调度。本地拥有数据库访问权限的任务请求,发送到本地进行处理,对于本地不具有访问权的任务,中央调度将任务发送到具有访问权限的,并且愿意提供服务的其他机构进行处理。
我馆正计划购入查收查引自动化系统,根据购买意向,对CALIS技术中心开发的“CALIS论文收录与引用系统”(后文简称CALIS)和西安知先信息技术有限公司开发的“NoteFirst论文查收查引自助服务系统”(后文简称NoteFirst)进行评测。前期已对上述两个系统的管理功能进行评测并发表相关论文。本文立足华南理工大学图书馆查收查引工作的实际需要,从系统使用者的角度,运用对比分析方法,重点对这两大查收查引系统的检索功能进行评测,以挑选适合我馆工作需要的系统,也能为其它图书馆或信息服务机构的系统购买提供一定借鉴。
二、自动查收查引系统检索模块对比
1.检索需求自定义
系统检索前要求用户按照自动查收查引系统指定的格式提交论文清单并勾选对应的检索数据库。目前,查收查引服务以查证论文被SCIE、SSCI、A&HCI、EI、CPCI-S,CPCI-SSH,CSCD,CSSCI等权威数据库收录为主。近年部分高校也逐渐认可一些新数据库作为评价科研能力和水平的指标之一,如SCOPUS、ESCI等。表(1)列出CALIS和NoteFirst自动查收查引系统所支持检索的数据库。
WOS平台的SCIE是国际上公认的对科学技术研究成果进行评价的权威检索系统,也是大多数高校查收查引工作的重要来源数据库。通常委托人在开具WOS平台论文收录引用证明时,会要求添加期刊的分区和影响因子等数据,或证明作者的贡献度。表1显示了两个查收查引系统对其它收录引用相关数据的支持度。
查收查引工作需要从数据库中提取的数据类型越来越多,因而自助查收查引系统需要提供各种有针对性的数据提取功能才能满足该工作的需要。
2.期刊级别
证明论文发表期刊的级别,所用评价工具有SCI-JCR提供的影响因子和分区数据,中科院期刊分区在线平台提供的分区数据。CALIS和NoteFirst均可按照论文发表年份或按当前提取期刊的影响因子数据。NoteFirst支持提取SCI-JCR期刊分区和中科院期刊分区两种,CALIS目前不支持提取分区数据。
3.引用规则
CALIS和NoteFirst都完全支持三种引用规则,包括“文献被除作者和合作者以外其他的人引用(按全部作者)”“文献被除第一作者以外其他的人引用(按首作者)”“文献被除检索作者以外其他的人引用(按检索作者)”。自动查收查引系统中的此项功能完善。检索报告中列出的具体引用数据可由用户自定义,通常有“全部引用”“只要他引”或选择同时列出两组数据。
4.作者贡献
由于许多学术评价规则中仅认可第一作者、等同第一作者或通讯作者的论文,因而在检索结果中需要标示出作者贡献。系统能否标示出作者的具体排名,取决于源数据库中是否提供该数据。WOS,EI数据库能够区分作者是否是第一作者或通讯作者,其他数据库则只能区分作者是否为第一作者。如果源数据库中不显示通讯作者,CALIS和NoteFirst均提供人工添加功能。针对等同第一作者,目前的权威数据库均不提供该项数据,需要从论文原文中进行查看,因而自动查收查引系统無法自动进行标记,对于需要添加这一部分信息的检索报告,需馆员确认后再进行标记。两个系统在处理“作者贡献”方面功能一致。
5.系统检索功能评测
自动查收查引系统的检索功能主要由系统后台爬虫自动处理,人工只需勾选所要检索的数据库并提交所需检索的论文信息。自动查收查引系统主要采用清单检索的方式,即用户按系统指定的格式提交检索论文的清单,系统自动根据清单进行检索。
6.数据预处理模块
数据预处理模块的主要功能是识别检索论文清单,并上传至系统中为后续的检索工作奠定基础。检索项的多少关系到文献信息的揭示程度,也关系到系统的检索效果,以及对检索结果准确性的控制。较多的检索项有利于后期的匹配,为馆员提供“疑似结果”,提示人工干预,以提高准确率。但检索项过多也存在着缺陷,一来会加重用户填表负担,二来匹配过多的检索项会拖慢系统的运行速度。CALIS要求的论文清单中填写13个检索项,其中题名、出版时间、来源信息及责任者为必填项。NoteFirst要求论文清单中填写9个检索项,其中论文标题、期刊名称、发表年度和作者为必填项。两个系统的必填项目一致,CALIS提供更多的辅助检索项。
自动查收查引系统从适用性和便捷性的角度出发,为用户提供多种论文清单格式的支持。用户提交论文信息时,可从个人成果中选择,批量导入论文,单篇添加,或从数据库网站导入。CALIS和NoteFirst所支持的论文清单提交格式如表(2)所示。用户提交论文清单后,系统将自动解析论文信息。如果系统无法识别某篇论文信息,馆员可以手工补充或者修正相关信息,单篇修改后再次提交系统解析。
7.论文收录与引用检索模块
系统预处理模块将文献信息录入完成后,馆员领取任务并在系统中确认论文列表,系统开始检索操作。任务进入检索队列中,按顺序或优先级高低排队等待检索。自动查收查引系统检索模块的工作流程如图(1)所示。
系统工作转到处理后,将自动去目标数据库中进行查收查引检索。为保证检索结果的准确性,系统在检索过程设置了人工介入机制。任务馆员的工作是对系统处理的结果进行确认。系统自动处理会产生三个结果:完全匹配结果、无匹配结果、疑似匹配结果。
(1)完全匹配结果。说明该数据项与论文清单数据完全匹配,此结果无需人工处理。
(2)无匹配结果。出现此结果的原因是论文的确未被目标数据库收录或引用,此论文无法出具检索报告。
(3)疑似匹配结果:系统自动识别疑问文章,无需工作人员逐篇查看、核对,只需对系统提出的疑问文章进行确认即可。出现疑似匹配结果时,CALIS显示“近似匹配”,NoteFirst显示“疑似成果”,提示馆员进行人工确认。
论文收录检索出现疑似匹配结果,原因是所填论文信息有误或必填信息有遗漏。针对此问题,系统提供元数据修改功能,馆员在系统中对该篇论文的元数据进行修改。修正后系统再次对该篇论文进行检索。论文引用检索出现疑似匹配结果,原因是不规范引用导致系统无法确定是否将该文献列入施引文献数据中。针对此问题,系统提供人工确认后添加、删除的功能。馆员需要对文献的引证信息进行校对。通过点击引用列表中的“施引文献”查看每个引用对应的施引文献以便进一步判断。如果确认某条施引记录,但是在引用检索结果中不存在,馆员人工添加引用。如果确认某条施引记录错误,可将其删除。如果是自引他引数据有误,系统同样提供自引他引信息的添加和删除功能。馆员根据系统中列出的论文作者信息进行人工判断,手工增加或删除自引他引信息。如系统再次运行后无可疑结果,馆员确定结果并提交用户查看,用户如无异议则检索工作完成,可为用户出具检索报告。
两个查收查引系统的检索流程基本一致,区别主要在容错机制的设定上。CALIS支持馆员查看系统的检索策略,如对检索结果不满意,馆员可修改检索策略,讓系统根据馆员设定的检索式进行查询。CALIS查收查引系统在整个检索过程中要求更多人工介入,过多的人工介入会降低工作效率,一定程度上增加了馆员的负担,优势是可以获得更准确的检索结果。NoteFirst则更智能,人工参与工作需求比CALIS要低,但检索准确率上不如CALIS高。
8.检索报告生成模块
检索报告生成模块的主要功能是实现论文信息格式的自动化,无论是个人完成工作还是分工协作完成的检索任务,最终都由系统完成论文信息的合并格式化。系统均提供word和PDF格式的检索报告供选择。检索报告中的论文排序用户可自行选择,可以按用户提交论文次序、按被引频次升序或降序排序,也可按作者排名进行排序。
三、改进建议
通过对两个系统功能的评测,可以看到商业化的自动查收查引系统具有较强的实用价值,能够替代馆员的大部分人工劳动,但系统仍有进一步改善的空间。
1.完善系统功能
商业化的查收查引系统的设计开发已采用当前流行的技术,但在功能设置上还不够完善。首先,需要增加学术评价指标的支持度。各个高校或科研单位对学术评价指标的选用并不完全统一。层次较高的大学或科研单位主要认可web of science平台和EI-Vilege平台,同时要求检索高热点论文、高被引论文、TOP期刊和作者h指数及衍生指标等,而现有的自动查收查引系统并不支持。民办高校、市县科技局或是科技企业对科研评价指标的选用标准有所降低,CSCD、CSSCI收录论文或是一篇普通论文即可。而一些专业性较强的高校,则认可专业性的数据库作为评价指标,如医学院校会将MEDLINE、PudMed等数据库列入评价数据库。自动查收查引系统未来应不断增加对各类数据库的支持度,满足用户多样化的需求。 其次,增加数据挖掘服务,辅助馆员完成更为宏观深入的科研成果分析报告。学科服务是高校图书馆发展的主要方向,查收查引工作可进化为层次更深的学科评价服务。自动查收查引系统中积累大量的数据,对其进行数据挖掘和聚合,对用户所在学科进行跟踪和预测分析。再次,功能上应能实现自动查收查引系统与财务处或人事处、学院的科研管理系统对接,让校内用户实现科研经费的实时划账。最后,开发移动端的系统。当前移动设备已经非常普及,如查收查引系统开发出移动端,用户可以在移动设备上提交检索清单,查看工作进程,并进行移动支付。
2.增强系统的运行效率
由于奖项评定、课题申报、职称评审、研究生学术论文认证等工作都具有一定的阶段性,这就决定了查收查引工作时间上的集中性。虽然系统能够替代了不少人工工作,但在申请高峰期,系统中常常有许多任务在排队等待处理。系统应加强多任务并行工作的能力,避免高峰期用户等待时间过长。
3.提高系统的自助完成率
由于用户填表有误、施引不规范、数据库中数据标引错误等原因,为保证查准率,自助查收查引系统普遍提供了“人工介入”功能。在实际应用过程中,仍有不少检索结果依赖馆员判断,严格来说,目前的自助查收查引系统属于半自动化状态。系统开发商应多收集一线查收查引馆员的建议,分析系统无法识别的原因,使系统具有自学习能力,能够自我判断疑问检索结果,真正实现系统的全自动运行。
参考文献:
[1]马芳珍.查收查引系统需求分析和设计要点探讨[J].大学图书馆学报,2015(4):80-84,121
[2]覃燕梅.百度学术搜索与超星发现系统比较分析及评价[J].现代情报,2016(3):48-52,60
[3]陈月从,方燕虹,武桂芹,何琼,田慧云.基于云平台的论文自动查收查引移动应用系统[J].情报探索,2016(3):66-72
[4]侯瑞芳,陈嘉勇,周婕.查收查引服务优化体系的构建与思考[J].图书馆建设,2015(4):75-79
[5]马芳珍,李峰,季梵,刘姝,王旭,刘素清.对CALIS查收查引系统的测试和应用效果评价[J].大学图书馆学报,2016(3):97-102