基于批量处理构建查收查引报告工作流程

2018-05-15 10:17陈伟苏婉莹周琴

现代情报 2018年4期

陈伟苏婉莹周琴

〔摘要〕[目的/意义]针对近年来图书馆查收查引报告需求逐年增加，自动化检索系统容易出现数据质量问题，传统手工操作费时费力的现状，提出了一个新的查收查引报告工作流程，以便图书馆更好地开展查收查引服务，提高服务效率和质量。[方法/过程]将生产运营管理学中的顺序移动法引入查收查引工作中，结合批量处理策略，重新构建查收查引报告工作流程。[结果/结论]该流程综合利用图书馆现有软件资源——Word、Excel和文献管理软件，发挥各软件之长，实现批量检索、批量编辑字段、快速插入引证文献。这大大减少了检索人员的重复性劳动，保障数据的准确性，为查收查引服务的研究与实践提供有益参考。

〔关键词〕查收查引；Word；Excel；文献管理软件；批量处理

DOI：10.3969/j.issn.1008-0821.2018.04.019

〔中图分类号〕G252.7 〔文献标识码〕A 〔文章编号〕1008-0821（2018）04-0130-05

〔Abstract〕[Purpose/Significance]The requirement of database retrieving and data processing reports is increasing year by year.Data quality problems easily occur by the use of automatic retrieving system，but it takes more time and energy to handle the reports manually in the traditional way.Then a new workflow is put forward，aiming at libraries to provide better database retrieving and data processing service and enhance its quality and efficiency.[Method/Process]The sequential processing of production and operation management was introduced into the workflow.Combined with batch processing the new workflow was set up.[Result/Conclusion]The workflow comprehensively utilized the software resource of library including Word，Excel and reference management software.It also took full advantage of strengths of the software.Batch retrieving，batch editing fields and quickly inserting citations could be realized.As a result，repetitive operations were greatly decreased and data accuracy can be guaranteed，which provided beneficial reference for study and practice of database retrieving and data processing service.

〔Key words〕database retrieving and data processing；Word；Excel；reference management software；batch processing

查收查引是一項签证性的信息服务工作，检索人员需以公平、公正、客观的原则，认真、负责的工作态度查证文章的收录和引用信息。这些信息为科研立项、职称评定、人才引进等活动提供必备的评价支撑数据。从服务的结果——查收查引报告中，不仅可以解读文章作者的科研成果和学术影响力，还体现图书馆查收查引服务的质量和检索人员的工作能力，因此其质量非常重要。近年来查收查引报告需求逐年增加，这给很多图书馆带来了困难和挑战。开发查收查引系统实现自动化检索是提高工作效率的一种途径，但由于数据库误标误引、作者重名等原因，容易出现漏检、误检、自引误判等数据质量问题[1]。如何高效高质量地完成查收查引报告是图书馆检索人员普遍关注的问题。

西安交通大学图书馆积极尝试探索，从工作流程的角度改进了查收查引报告的工作流程，并结合常用软件进行批量处理操作，从而有效地提高了查收查引报告的处理效率。本文将结合实践，详细阐述该操作流程及相关技巧，以供同行参考。

1 查收查引报告的研究现状

面对不断增长的查收查引报告需求，图书馆在如何提高检索人员的工作效率方面做了很多研究，归纳起来有两大类：

第一类是开发查收查引系统，实现自动化检索。目前已有清华大学[2]、中国科学院[3]、CALIS技术中心和北京大学图书馆[4]开发了自动化系统，但并未能实现全自动化检索，检索过程中仍需要人工干预；也有高校[5-6]将机构知识库与查收查引系统结合起来，这能有效地提高本校读者的查收查引报告检索效率，但对于校外读者并不适用；也有针对查收查引工作流程中某一环节/某一部分进行研究，如PDF格式报告的自动生成[7]、针对SCI数据库的查收报告自动出具系统三[8]。

计算机软件辅助查收查引报告是检索人员提高效率的另一个途径。文献管理软件和Excel是常用软件，例如中国科学技术大学图书馆研究用不同的文献管理软件提高查收查引的工作效率[9-11]。也有将办公软件Word[12]的查找替换功能应用于查收查引报告中。

据统计118所211高校中使用查收查引系统有20所左右[5]。大部分图书馆仍采用计算机软件辅助或者传统手工操作的方式处理查收查引报告，究其原因，每个图书馆的人力资源、资金状况、查收查引需求量等情况不同，应对措施也有所差异。在计算机软件辅助或手工处理查收查引报告时，基本采用直线式，每篇文章要逐一检索收录和引用，逐个处理检索报告。但当面临多个检索报告或多项任务时，只考虑当前单个查收查引报告而逐篇进行检索，这种做法虽然具有简单和可行性高的优点，但存在大量简单的重复性操作，并且从整个工作流程来看，没有考虑多个检索任务、网络状况、检索人员身兼多职等实际状况，因此此类做法在工作量和执行时间方面都有改进的空间。本文则针对这一突出问题，改进工作流程，将检索报告的处理过程划分为多个环节，化整为零灵活执行，使用常用软件执行批量处理操作，减少检索人员重复的机械性劳动，提高查收查引报告的工作效率；同时将检索人员的精力主要集中在引用部分，特别是他引的排除和判断上，保证数据质量。

2 查收查引报告处理的整体思路

在生产运营管理学中，有一种生产过程的组织形式为——顺序移动方式[13]。它是指一批零件在前道工序全部加工完毕后，整批转移到后道工序进行加工。这种组织方式的优点是每一个工序集中处理，工作效率高。针对多篇文章的查收查引报告，若将文章视为“零件”，采用顺序移动方式，并结合批量处理操作，可大大减少检索人员的重复性劳动。

基于批量处理策略处理查收查引报告与传统的逐篇检索的工作流程和操作方式完全不同，需对报告处理的过程和细节做全面、系统的考量。因此需从整体上重新设计和规划工作流程，具体而言，包括以下几个步骤：

1）接受读者委托，确定检索文献清单。与读者沟通伊始，解释格式规范的或有收录号的文献清单有利于报告的快速完成，读者可能给予支持。若读者急需查收查引报告，但无文献清单，检索人员可辅助。

2）读者填写委托书，明确检索需求。沟通的第二个关键问题是将读者需求以填写委托书的方式记录下来，明确检索和引用的数据库、他引规则、排序方式、所需汇总数据等细节问题。这一环节是查收查引报告工作流程中的关键环节，直接关系到报告的内容和有效性，后续环节都是在这一基础上开展的。

3）批量检索文章收录，获得被收录文章列表。通过收录号或者文章篇名等关键字段编辑成检索式进行批量检索。

4）按检索需求搭建查收查引报告框架。基于文章收录列表，通过批量处理操作编辑字段生成报告的收录部分和引用框架。

5）集中插入引证文献、分析他引。利用文献管理软件Endnote或者NoteExpress在引用框架的基础上插入引证文献，同时分析他引，补充数据。

6）统计、汇总数据完成报告。

3 批量处理查收查引报告的关键环节

查收查引报告工作流程中的每一步都会涉及一些关键性问题，只有对各个步骤的关键问题提前注意并妥善处理才能保障报告的高效处理。

3.1 批量检索

3.1.1 编辑批量检索式

笔者在实践过程中，針对每一个读者的查收查引报告建立了相应的Excel文件，并把不同环节的数据放在其不同的工作表中，例如给张三做查收查引报告，可将其文献清单、收录数据、报告框架、统计数据四个工作表汇集在一个名叫张三的Excel文件中，这便于存储、分享和核实数据。

批量检索之前，先用Excel提取收录号或篇名等关键字段，再结合Word的替换功能编辑检索式。方法如下：将格式如参考文献般的文献清单粘贴到对应的工作表中，得到一列数据，然后使用数据分列功能，提取每篇文献的WOS入藏号/Accesssion Number/PubMed ID/篇名，单独成一列。再将这一列关键字段粘贴到Word中，通过替换功能编写检索式。如提取的是收录号，将收录号之间的回车符号“^p”替换成“OR”即可；若提取的是篇名，则将篇名之间的回车符号“^p”替换成“”OR“”，即把每个篇名精确检索后再执行逻辑或。应用上述检索式，选择对应的检索途径，如在SCI数据库中有入藏号、Pubmed ID、篇名等检索途径，能快速获得多篇文章的收录结果。

3.1.2 比对核实并查缺补漏，获得被收录文章列表

批量检索可提高检索效率，避免了逐篇检索时的费时费力。通过WOS入藏号/Accession Number等收录号获得的结果，即快速又准确，但使用PubMed ID或篇名批量检索后可能漏检。漏检的原因之一可能是文章未被收录或由于数据库滞后尚未被收录[14]；原因之二是：SCI在标引数据时有遗漏PubMed ID字段现象，例如文献：CARDIOVASCULAR DIABETOLOGY，2015卷：14 文献号：6 DOI：10.1186/s12933-014-0165-0；另外篇名中如有特殊字符或拼写错误也会漏检。

补缺漏检的文章之前，需比对核实确定哪一篇文章被遗漏。快捷的办法是预先利用Excel中的排序功能将文献清单排序，批量检索后也将检索结果按同样方式排序，再通过来源出版物和页码核实信息。同一篇名在数据库中也可能出现两条记录[15]，需谨慎挑选：文章订正后的记录可保留，若文章被撤销，则都不予选择。

漏检的文章要进一步补缺。这里推荐“篇名专业词+作者姓+合作者姓”这种检索策略，可有效避免SCI、EI等数据库对姓名不同著录方式的干扰，通过提高查准率快速补漏。比对核实和查缺补漏可保证收录数据的质量，将上述结果合并，按特定排序方式导出即获得被收录文章列表。

3.2 按读者需求搭建查收查引报告框架

查收查引报告主要包括首页结论、收录部分和引用部分，其框架的搭建主要针对后两部分，这一环节是整个流程中最重要的一个环节。重中之重是针对引用部分搭建框架，要分析哪些字段需要调整、修改；或需要增加哪些字段，之后根据需求再编辑插入内容。与传统逐篇操作流程比较，这是一个新增的环节，它可将读者的需求转化为报告中具体的字段，便于批量处理操作，减轻后续引用环节的工作量，为统计环节提供便利。

报告的收录部分是基于文章的收录列表生成的：将被收录文章列表保存到Excel的收录工作表中，这时在数据前方新增一列，填充序号，如图1a所示。通过全选数据以列B排序可使同类字段集中在一起，删除ISSN、IDS号等不必要字段所在的整行区域；再全选数据以序号列A排序，完成对收录数据的精简，生成报告的收录部分。

与收录相比，文章的引用做法不同，而且不同读者对引用要求不同、他引定义不同，因此查询文章的引用是相对独立的。利用这些特点，可将读者的需求提前预制在查收查引报告框架中。引用部分的框架，是以图1a—被收录文章列表的数据为基础，经复制再批量处理修改而成，如图1b所示。涉及的具体操作有：1）针对每篇被引文章的编号，使用排序和“拖拽”填充表格的方式实现批量修改：全选数据，先以列B排序，再将类似“第1条，共33条”字段所在的33个整行区域以列A排序，两次排序使此类字段与文章排序方式一致有序化，然后在此区域的第一行输入“被引文献1”字样，拖拽并以序列方式填充；2）针对被引频次字段，需要移动至每篇被引文献的末尾，故将其调整到“IDS号”字段位置：通过上述两次排序的方法分别将“IDS号”和“Web of Science核心合集中的被引频次”字段有序化，将后者复制粘贴到有序的“IDS号”字段区域即可；3）每篇被引文献需要添加引证文献，并且读者有时需要他引频次，故增加“他引频次”和“引证文献”字段：在“Web of Science核心合集中的被引频次”集合行后的列C和列D的位置，分别输入“他引频次”和“引证文献”两个新字段，通过拖拽鼠标下拉填充。经过上述编辑，字段已经设定到位，全选数据以列A排序，就得引用部分的框架，如图1b。这里，新增的序号列A有很好的标记作用，不仅可以标记每篇文章记录之间的顺序，而且通过两次排序还可得到与文章排序方式一致的有序字段。需注意的是：排序必须是针对整个工作表或整行区域，否则数据会错位。

如在EI收录结果前方增加序号列，可将Detailed Record格式中的“Accession Number”批量添加至Citation格式中，得到有收录号的简洁数据。操作方法如下：依次导出检索结果的Citation格式和Detail Record格式数据，保存到两张工作表内，此时两种格式下文章的顺序是一致的。然后都在前方新增序号列，用前述两次排序法将Citation格式中的“〈Record 序号〉”字段有序化、Detail Record格式中的“Accession Number”有序化。然后将有序的“Accession Number”复制粘贴至有序的“〈Record 序号〉”字段后，形成一一对应关系，至此，全选数据以序号列排序即可。

近年来读者对查收查引报告的结论不仅仅局限于收录篇数、引用次数等，有时还包括近五年的收录篇数和他引次数、不同身份（第一作者、通讯作者）下的收录和他引等，这增加了报告的处理难度，对检索人员处理能力要求更高。实践证明，检索人员需根据读者的需求，积极尝试和探索，预先在Excel中整理数据、修改字段。报告框架的完善程度直接影响报告的质量和完成速度。

3.3 利用文献管理软件集中时间插入引证文献并分析他引

将报告框架粘贴到Word中，还缺少每篇被引文献的引证文献、他引频次等内容。在补充之前，可利用Word做一些准备工作。例如标题功能，将类似“被引文献1”字段用格式刷批量标题化，然后选择大纲视图，这一模式能快速定位被引文献，避免盲目滚动鼠标或翻页查找；另外，从Excel表粘贴过来的报告框架含很多制表符，可通过Word中的替换功能批量清除。报告中的字段格式、字段间距等也都可以通过替换功能批量修改，这不仅大大减少了手工操作的工作量，而且使报告格式规范统一。

在实践中，提取被收录文章列表中的文章收录号、编辑成检索式并保存，以便随时调用进行批量检索、快速准确地返回到数据库中收录结果页面。由于引用部分的框架来自于被收录文章列表，调整数据库中检索结果的排序方式，很容易将Word中被引文献与其数据库中对应的引证文献关联起来。接下来是将引证文献补充到Word的报告框架下，做到一一对应。

本文利用NoteExpress、Endnote生成引证文献列表。当使用NoteExpress时，点击鼠标将引证文献题录从数据库导入软件，再选择输出样式，利用其格式化复制功能，可将选中的题录补充到相应的“引证文献”字段后。如用Endnote，需预先在Word“引证文献”字段后插入连续分节符，然后将题录通过Endnote导入Word，实现在不同的被引文献后方插入对应的引证文献。

从数据库下载引证文献题录时，无论使用上述哪一种软件每次都可导出500条，不受SCI数据库平台每页50条翻页的限制；逐一补充引证文献看似工作量大，但实际使用文献管理软件时，点击鼠标加键盘操作就可实现快速插入引证文献，这比传统的从数据库复制粘贴容易很多也快很多；并且生成的引证文献列表格式规范紧凑。从软件导出题录的过程中，NoteExpress单次可格式化复制1 000条题录至Word，Endnote单次最多插入250条题录至Word。从插入题录数量及界面操作语言角度，NoteExpress的格式化复制功能不逊于Endnote插入题录功能。

在查收查引报告委托书中，越来越多的读者需要他引数字，这一环节工作量较大，比较费时。此处笔者有两个建议：1）选择网速快、干擾少的时间段，集中精力插入引证文献，同时分析他引频次，最大程度地减少外来因素的干扰。2）预先分析和了解合作者情况。以SCI数据库为例，通过检索结果的分析功能，提前分析作者字段，了解主要合作者及其分布，便于检索人员在分析他引时快速、有效地识别合作者。

3.4 利用Excel统计分析数据完成报告

经过前面的步骤，每篇被引文献的引用次数和他引频次都已确证，最后统计总引用次数，总他引频次。若手工逐篇统计，繁琐还易出错。利用Excel统计，既方便快捷，还准确无误。方法与前面类似：将补充内容后的引用部分粘贴到Excel的统计工作表中，在前方新增一序号列，然后排序、分列和自动求和，可得被引频次、他引频次的累积和、及读者需要的汇总数据。

在统计过程中有时会涉及查重，这时要结合Word进行操作。笔者曾做过一个用于创新团队申请的查收查引报告，5位成员各提供了60篇左右的文章，共计300多篇。将个人的收录和引用统计后，读者提出需要团队总发文量的收录和引用。这其中有部分文章署名了两位或多位成员，如按团队统计，就涉及一个查重再统计的过程，鉴于文章数量较多，时间紧迫，手工查重不现实。这时采用的方法是：首先在Word中，将引用部分的回车符^p全部替换成制表符^t，将“被引文献”替换为“^p被引文献”，再将引用部分粘贴到Excel中。处理前，Word中的被引文献及相关内容是以列的形式出现；处理后，每篇被引文献及其相关字段内容在同一行的不同单元格中。这样再分列和查重，就很容易找出这300多篇被引文献中的标题重复项，将其对应的整行删除后分列统计，查重统计难题迎刃而解。

4 效果和体会

西安交通大学图书馆采用批量处理处理查收查引报告，取得了较好的效果，检索人员兼任学科馆员，服务本校师生的同时，也为校外读者做了大量的查收查引报告，报告完成量逐年递增。其优点主要体现在以下4个方面：

4.1 查收查引报告质量有保证

无论搭建框架环节还是统计环节，都在Excel中进行，且在数据前方新增一序号列，这能有效地保证数据多而不乱，准确无误地修改字段或统计数据；另外收录环节有核实、引用环节的文献管理软件都能保证检索人员的精力聚集在数据的准确性上。

4.2 工作效率较高

批量检索比手工逐篇检索效率高，且在流程中增加了报告框架搭建环节，有利于后续环节批量处理也减轻了工作量；Word中的标题功能可快速定位数据；使用文献管理软件集中时间插入引证文献则实现了引证文献的快速插入。

4.3 灵活性高

该工作流程中的各个环节环环相扣，且每一个环节可按顺序单独进行。当检索人员面对多个报告或任务时，检索人员可根据报告截止时间、网速等因素因地制宜地执行某个报告中的一个环节，协调其它工作开展，这样即将复杂的报告化整为零，也能充分利用碎片化的时间，工作目标性更强。

4.4 循环可逆性

针对特定读者，其文章收录和引用数据在Excel中存储，文章的收录号可重复使用，方便应对读者潜在或未来的再次申请，便于查收查引报告的更新；针对一个报告，用收录号编辑的检索式可随时调用批量检索，能迅速返回到流程中的任一环节，方便数据的核查。

5 结语

本文基于生产运营管理学中的顺序移动法，提出了一种新的查收查引报告工作流程。该流程以批量处理为基础，充分利用图书馆软件资源，将各软件之长有机地融合在查收查引报告中：结合办公软件Word和Excel编辑检索式进行批量检索，通过Excel批量整理、插入和修改字段搭建报告框架，利用文献管理软件快速导入引证文献。这不仅提高了工作效率，缓解了业务高峰时期检索人员的压力，也有效地满足了文章数量上不断增长、内容上不断变化的查收查引报告需求，提高了服务质量。这种方法适用于文章数量较多，如几十篇或上百篇的检索报告，也非常适用于检索人员兼任学科馆员的图书馆，但不适用于文章篇数太少的检索报告。

参考文献

[1]马芳珍.查收查引系统需求分析和设计要点探讨[J].大学图书馆学报，2015，（4）：80-84.

[2]战玉华，程爱平，钱俊雯，等.代检代查服务系统的开发及应用[J].图书情报工作，2005，49（11）：75-77.

[3]王学勤，郝丹，郑菲，等.“查收查引报告自动生成系统”应用实践研究[J].图书情报工作，2014，58（16）：131-137.

[4]马芳珍，李峰，季梵，等.对CALIS查收查引系统的测试和应用效果评价[J].大学图书馆学报，2016，（2）：97-102.

[5]侯瑞芳，陈嘉勇，周婕.查收查引服务优化体系的构建与思考[J].图书馆建设，2015，（4）：75-79.

[6]王曉丹，田永梅，孙雷.提高查收查引服务效率的实践与探讨——以哈尔滨工业大学图书馆为例[J].高校图书馆工作，2014，（4）：55-56.

[7]阚洪海，赵杰.基于水晶报表的查收查引报告自动生成的设计与实现[J].现代情报，2017，37（4）：129-133.

[8]孙发，吴强.论文查收报告自动出具系统的设计与实现[J].现代情报，2016，36（4）：105-109.

[9]樊亚芳，陈锴.利用Excel和EndNote Web提高论文查收查引工作效率[J].图书馆杂志，2013，（1）：32-34.

[10]樊亚芳.利用文献管理软件提高论文查收查引工作效率的实践与应用[J].高校图书馆工作，2017，（2）：63-66.

[11]张雪娟，樊亚芳.NoteExpress在论文查收查引工作中的应用[J].情报探索，2017，（6）：45-49.