占 磊(广东省立中山图书馆)
图书采分编(采购验收、分类编目、典藏管理)业务是图书馆的核心基础业务之一,近年来随着《中国机读目录格式》的普及应用和联机编目的实用化[1],许多图书馆选择将该业务中的部分环节外包给图书供应商,以缩短图书加工编目周期,节省图书馆人力资源,提升图书的上架效率。但也由于过分依赖供应商而导致图书馆失去了采编业务的主动权,造成了编目质量的普遍下降。因此,图书馆采分编业务迫切需要新的技术或体系来改变现状。
有鉴于此,广东省立中山图书馆在经过前期仔细调研及充分论证技术的可行性后,研发了图书采分编智能作业系统。本文通过介绍和探讨其系统构建、实施流程、技术实现的难点和解决办法,详细描述和论证了一种既能提升图书加工编目和上架效率,又能保证图书编目质量并降低人力成本的智能采分编方案,以期为图书馆采分编工作的智能化发展提供参考。
图书采分编智能作业系统在国内图书馆界并无先例可循,需要研究开发,其充分将工业机器人、图像识别、计算机视觉、机器学习、物联网等新技术应用到图书验收、加工、编目和分拣流程中,为有大量图书编目加工需求的图书馆和书商提供了创新解决方案。
传统的采分编流程,一般分为图书采购、验收、加工、编目、上架等,具体到广东省立中山图书馆,其流程细化为:图书采购、拆包核对清单、上机验收分配条码和馆藏地、贴码盖章封边、编目校对、打印粘贴书标(索书号)、粘贴和转换RFID标签、分类分拣上架。要将现有流程进行自动化,首先需要根据现有技术条件确定各流程实现自动化的可行性;其次要根据加工及效率需求对现有流程进行优化整合和自动化改造,以适应智能化采分编的要求。基于此,在经过大量的前期调研和技术论证后,我们设计了整个智能作业系统的总体流程(见图1),计划分阶段建设实施。
如图1所示,系统根据不同类型的图书设计了三种不同的工作模式,以应对不同类型的图书,按照流水线作业的模式使机器与人完美分工,形成图书采分编的全流程闭环,最终达到节省人力且保证编目质量的目的。图书自图书入口进入后,系统经过对图书信息页的扫描识别,解析出ISBN、定价等关键信息,与图书馆编目流通系统(简称ALEPH)订单进行收单对比,之后进行贴码盖章等物理加工、系统单册状态与馆藏地校验、图书编目数据自动套录、书标打印粘贴、图书按馆藏地分拣等流程。在此过程中,系统根据不同的判定逻辑,分别将收单对比不一致和无法加工的图书剔除出来,转人工处理并输出报表;对单册馆藏地校验异常的图书输出清单转人工校验;对无法套录到数据的图书进行编目信息页扫描并分流图书,供馆员进行无纸化编目,编目完成后图书重新回到系统流水线。
图1 图书采分编智能作业系统总体流程
根据系统设计流程的特点,其建设分为三个模块进行,分别为编目前加工、收单验收和编目、编目后加工及分拣,并按时间分三期进行建设。目前已建成并运行的为编目前加工模块,其功能为对尺寸在400mm×300mm×50 mm(长、宽、厚)、重量在3kg以内的图书进行规范化地贴码、盖章、覆膜、粘贴RFID标签等操作,运行效率约为500册每小时,节省了大量重复性人力劳动。收单验收和编目模块需要与我馆ALEPH系统进行对接,实现与采购订单的对比,并更新系统数据实现图书验收;运用机器自动化翻页、扫描、智能图像识别技术实现编目信息页的自动扫描识别,对已有联编数据的图书实现自动套录,对无联编数据的图书则形成数据包,发送给编目员进行无纸化编目。编目后加工和分拣模块,其功能是为已完成编目的图书进行书标(索书号)的打印粘贴、馆藏地标识打印、图书按馆藏地和分类自动分拣并传送到相应流通部门。
系统建设的目标是通过以上三个模块的建设,使图书采分编达到全流程流水线作业,让80%~90%的图书都能通过这套智能作业系统完成图书到货至上架的整个流程,最大程度减少人力投入,提升图书上架的效率。在后期,我们将逐步探讨应用人工智能实现图书文献的自动编目标引,进一步提升编目效率。
进入作业系统的图书并不都是有订单的新书,也可能是无订单的征集图书或赠书,针对不同情况,系统会有不同的工作模式(见图1)。
(1)第一种模式适用于绝大部分订购的新书,该模式下图书正常进行收单验收、贴码、盖章、覆保护膜、贴RFID标签、系统登到、单册信息更新、RFID信息写入、单册状态校验、数据套录等所有流程,人工介入相对较少。
(2)第二种模式适用于不需要进行系统收单验收的图书,该模式主要针对已完成人工验收登到、馆藏分配和条码分配的图书。如征集图书、赠书等,条码可以是已全部粘贴的,也可以是只粘贴封底一个条码,其工作流程跳过收单、系统登到、单册信息更新和校验,直接进行条码扫描识别,进行补贴条码、盖章、覆膜、RFID粘贴和写入,之后进入编目数据套录环节。
(3)第三种模式主要针对已完成人工编目和审校的图书,跳过前面所有流程,直接进入书标打印环节,是否设置该模式取决于是否在书标打印环节前设置第二个图书入口。如设置,则不需要该模式;如不设置,则图书需要在最初的图书入口进入,使用模式三跳过前面所有流程,使图书直接进入书标打印环节。
采购到馆的图书,在拆包后需要进行收单验收,核对其与送货单、订购单是否一致。收单验收时图书信息的对比涉及图书实体本身、图书到货电子清单和系统订单三方面。三方面同时对比,若一致则完成收单验收,不一致则按不同情况分别输出报表。如,图书与到货电子单出现复本数或价格不一致、图书与ALEPH订单出现复本数或价格不一致、图书查不到货单信息但能查到订单信息、图书有到货单信息但查不到订单信息、图书无到货单和订单信息等。每批图书需要清晰列出以上异常情况并形成验收表单输出,以供馆员核对结算,同时将异常图书分拣出来转人工处理。
收单验收对比一致的图书,由系统按照图书馆提供的条码段依顺序打印条码,每个条码打印两张,分别粘贴到每本书的指定位置,其中封底条码粘贴好后,需要覆盖透明的条码保护膜。每本书在指定页面及位置盖馆藏章和粘贴RFID芯片标签。遇到尺寸、装帧异常无法进行加工的图书,则转人工处理并输出报表。在智能化应用方面,对大量不同尺寸、厚薄、重量、纸张类型的图书进行加工时,可利用计算机视觉技术识别并收集其相关信息,通过机器训练和学习来逐步提升其贴码、盖章、翻页、覆膜的准确率。
关联加工完成图书的条码和RFID信息,将信息写入ALEPH对应的订单和单册中,即完成系统登到、单册条码更新和RFID信息关联。登到时根据单册状态为每个单册添加复本号,同时将单册处理状态由“订购中”更新为“编目中”。图书信息更新时,面对较为普遍的多订单情况,需要准确找到相应订单,还需要依据单册状态参数对该种图书所有订单下的单册状态进行校验,自动修改并输出状态异常清单,供馆员人工校验。
依据ISBN自动匹配套录编目数据,系统对已完成加工和单册校验的图书,首先查询馆藏数据是否已编目,再根据馆藏905字段确定是否为加复本,若是,则做加复本处理,写入单册索书号等信息,图书进入下一流程。如查询馆藏数据未编目,则优先查询国图数据,如有,则直接套录并添加馆藏905字段,再对应单册增加索书号,图书进入下一流程;如没有相关国图数据,则查询联编数据,有则套录并添加馆藏905字段,增加单册索书号,图书依据单册状态分流,外借本图书和少儿书直接进入下一流程,保存本、地方文献等非外借本分拣出来,传送至编目员处进行数据校对。如查询馆藏数据未编目,且无法套录到任何编目数据的图书,系统须对相关编目信息页(封面、封底、题名页、版权页、目录、正文前10—20页、结尾10—20页等)拍照扫描,形成数据包在线推送给编目员进行无纸化编目,并通过OCR识别版权页信息,智能转换为文字信息,匹配到编目系统的相应字段中,降低编目员工作难度,同时还需将图书暂时分拣出来供编目员随时查阅。
综上所述,相比图书编目完全外包造成的编目质量下降,本流程的做法综合考虑了编目质量与编目效率的平衡。
已完成编目的图书,智能作业系统根据其索书号、复本号打印颜色书标,同时依据单册馆藏地将某些特定的馆藏地信息同步打印在书标指定位置。将书标粘贴到图书书脊下部,覆上透明保护膜,能识别有特定颜色要求的保护膜(如少儿书)并在保护膜指定位置喷上特定颜色。最后,系统将图书馆藏地等数据信息写入RFID标签。
已完成验收、编目、加工流程的图书会进入最后的分类分拣流程,系统依据图书的分类和馆藏地信息采用工业上比较成熟的AGV(自动导引运输车)分拣和自动搬运将其运送至各个不同的馆藏地。该分拣搬运系统除了对编目加工完的图书进行分拣搬运,还可对读者归还的图书进行分拣,方便工作人员更加快速高效地将图书重新上架。
本系统各流程功能的实现涉及众多新技术的应用与创新,其中编目前加工模块就含有20项外观专利和4项发明专利。整套系统涉及物联网、计算机视觉、工业自动化、机器学习、自动分拣等多种技术的综合应用。除自动分拣外,其他技术在国内图书馆领域的应用几乎没有经验可循,需要全新开发整合,因此存在较高的实施难度和风险。
为图书贴码、盖章、覆膜等工作对人工操作而言非常简单,但对机器来说难度较大,机器擅长的是标准化的重复动作,而图书的加工恰恰不是标准化的。面对不同尺寸、厚度、光滑度的图书纸张,机器利用负压翻页需要的吸力是不同的,翻页系统智能化要实时判定才能做到精准翻页。不同尺寸重量的图书,其姿态调整也需要机器实时匹配调整,左翻书和右翻书的翻页方向不同,系统需通过图像识别来判定翻页方向。每本书粘贴的两个条形码必须相同,需要系统识别校验,条码和保护膜要从卷带上剥离再粘贴到书页上,精准控制力度以确保条码和保护膜可以100%剥离,粘贴时也要通过图像识别、程序算法控制和机械设计来实时调整其粘贴位置,使其不遮挡文字内容。书标和保护膜的粘贴位置在书脊,因此需要机器自动将不同厚度的图书立起并固定,且在粘贴时准确贴合到书脊、封面、封底三个立体位面,粘牢且不损坏图书。对不同开本、纸张的图书进行连续翻页和清晰快速拍照扫描,这对机器设备的要求较高。以上这些,涉及的技术复杂度较高,整合开发有难度,且需要运用人工智能技术对机器进行大量训练,才能提升其加工的准确率。
(1)通用性指的是系统能够适用的图书范围。系统的设计预期是覆盖80%~90%的图书,而对于那些尺寸、重量超出设计的,或装帧、纸张异常的图书,则很难通过机器进行加工。
(2)稳定性指的是系统运行的可靠性、耐用性、效率和噪声控制。对于大型图书馆来说,每年处理的图书量是很大的,要保证一定的运行效率,完成每年的图书加工任务,不能出现经常维护或维修的情况。由于系统的复杂性和独创性,其建设的成本是比较高的,建成后需要经久耐用才能具有一定的性价比。图书馆环境的一个基本要求是安静,因此噪声控制也非常重要,在不能影响读者的同时,也要为工作人员提供一个相对安静的工作环境。
(3)差错率指的是系统加工图书的出错概率。差错率越低,需要人工干预的工作量就越少,反之将增加人工干预的次数,严重影响效率,这就要求差错率必须要控制在比较低的水平。
(1)收单验收时,需要系统识别实体图书的ISBN、价格和同种图书的复本数,对比馆员人工导入的到货电子清单,读取ALEPH系统的订单信息。在读取ALEPH系统的订单信息时,面对较为普遍的单条数据多订单的情况,能通过订单信息(书商、分馆、单册数量等)准确识别正确的订单。面对多条数据多条订单的情况,也能通过数据中包含的订单信息(书商、分馆、单册数量等)准确识别正确的订单。订单和单册信息的登到更新,主要有条码信息的更新、单册状态的更新和RFID芯片信息更新等。
(2)单册状态校验时,需要依据馆方提供的参数表。该参数表需要尽量列举出所有的异常情况,还需要列举出所有异常状况的正确修改方案,包括每种单册状态需要对应的分馆和馆藏地、同种单册状态是否可重复、复本号是否需要分配及按什么规则分配等,使系统可以对不符合参数表的情况对ALEPH数据进行自动修改,实在无法自动修改的,再输出清单供馆员人工校验。
(3)编目数据套录时,同一个ISBN经常会对应多条数据(不同版本或多卷书),因此系统套录数据时,需要准确识别编目数据中的某些关键字段(年份、页数等),判定并套录到正确的那条数据。供套录的数据库需及时更新,若690字段有变化,需要系统形成提示并汇总,由工作人员在规定时间内生成汇总文件反馈借阅部,方便查找错标书籍重新贴标。对版权页的准确识别需要依靠OCR(字符识别)识别和大量机器训练,使智能系统能自行识别扫描版权页,并将图片信息文字化,实现部分字段的自动标引,以减少编目员人工输入。
经过一系列安装调试,广东省立中心图书馆的编目前加工模块于2021年4月建成落地,并开始正式运行。该模块的具体工作是对图书的封底和题名页贴码并校验其一致性、对封底已贴的条码覆膜、在题名页盖馆藏章、在封底的反面粘贴RFID标签等。初期为了系统稳定性,其加工速度控制在200—300册每小时,每天开机4—5小时即可满足图书馆的图书加工需求,大大减少了人工重复劳动。在对近2万册新书的加工中也发现了一些问题,如在处理有封套图书和精装图书时,机器翻页系统存在一定的出错概率、多卷书的加工存在缺陷、条码剥离时也存在一定失败概率等,这些都需要通过机器迭代升级与系统算法优化来逐一改进,最终使80%~90%的图书均能通过智能作业系统进行加工,并尽可能降低出错概率,减少人工介入频率。
系统通过自动套录和无纸化编目的方式初步解决了编目外包造成的数据质量下降问题,同时也兼顾了编目效率。这样的智能化编目只是停留在对已有数据的自动套录和对无数据图书的编目信息页扫描,并尝试对版权页进行智能识别与自动标引,距离真正的全自动标引依然存在距离。要实现全字段的自动标引,需要对大量已有的中文图书主题手工标引数据的训练和学习,并由此产生序列实体之间语义关系和规则特征的模板,然后利用该模板进行机器预测[2]。同时,还需对大量图书信息页的OCR扫描识别,并与该模板进行对比套用,最终实现较高准确率的自动标引。
近年来,随着业务外包理念在我国图书馆界的推行,外包商和图书供应商承担了越来越多的图书加工编目工作。采分编智能作业系统的出现不仅为大型图书馆提供了采分编解决方案,同样也为外包商和图书供应商提供了替代人工的高效途径。随着系统逐步建成并不断迭代升级,越来越多的专利将随之出现,其稳定性、效率、成本控制等将持续提升,最终将有较大可能定型为成熟的产品向各大型图书馆和书商推广。同时,系统对图书外观、页面内容信息的大量采集,可以形成数量庞大的图书信息数据库,为图书馆后续提供基于该数据库的各种知识服务提供了可能。