邹开元
(广东省立中山图书馆 广东广州 510110)
《文化部“十三五”时期公共数字文化建设规划》目标任务指出,2020年基本建成与现代公共文化服务体系相适应的开放兼容、内容丰富、传输快捷、运行高效的公共数字文化服务体系。近年来,图书馆资源建设和读者服务环节均已充分利用信息技术进行了革新,实现了服务的网络化和智能化[1]。同时,随着新技术的发展,图书馆领域出现了一些以人工智能、大数据等技术为支撑的智能化应用或智能化场景,如机器人馆员[2-3]、人脸识别入馆[4]和借还书[5]、图书智能分拣和智能立体书库[6]等。这些智能化的应用解放了大量人力,提高了图书馆的服务效率,更好地满足了广大人民群众快速增长的数字文化需求。从智能化应用的使用情况来看,目前经济发达地区图书馆对智能化应用的尝试较多;从智能化应用水平来看,这些应用大多数都还处于弱人工智能阶段[4];从应用的场景来看,这些智能化业务大多应用于读者服务前端,在图书馆业务管理的后端(图书采编业务)鲜见新技术理论探讨的落地和实用化案例[1]。由此可见,我国图书馆业务前后端在智能化应用的发展上有着不平衡、不充分的特点。
《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》提出:“推动公共文化数字化建设,提升公共服务数字化智能化水平”[7]。2021年是“十四五”的开局之年,图书馆界也开始着眼制定“十四五”时期的战略规划,而目前的人工智能技术发展已经进入机器智能阶段,机器可以通过一系列高级算法进行深度学习(代表事件为阿尔法狗AI程序击败围棋世界冠军),这些将对图书馆领域的未来发展产生怎样的影响呢?
本文将从图书馆采编业务(加工、验收、编目和分拣)的角度出发,分析采编业务智能化的优势和可行性,探讨影响智能作业系统在采编落地的原因,提出基于工业自动化系统和人工智能的采编智能作业系统建设方案。
图书馆界目前在图书验收、加工、编目环节,人工劳动密集型作业仍然是主流。以广东省立中山图书馆(以下简称“我馆”)采编部业务流程为例:图书经中标书商配送到馆之后,由工人拆包、馆员验收再到加工、编目校对、贴索书号和RFID标签,最后将图书分类再转上架流通(见图1)。从整体流程来看,传统的采编流程对场地的要求非常高,图书从拆包到最后上架流通,经历了验收、加工、编目等多道工序,在不考虑人工效率的情况下,仅图书的辗转腾挪就得耗费不少时间。
图1 传统采编作业流程图
这里将使用工业自动化系统和人工智能技术代替传统人工验收、加工、编目、分拣等操作的系统称为采编智能作业系统。智能化作业理论上可以做到加工验收、图书编目、加工分拣等中间流程全部由机器自动完成,人工参与的作业只有图书拆包上流水线和上架流通环节(见图2)。
图2 智能作业流程图
使用机器流水线作业可以大量解放人力,解决图书积压问题,缩短采编出书周期,随着外包加工人员的减少,与书商谈判时就能降低图书购买折扣,同样的购书经费能买更多的书。智能作业系统能为专业馆员赋能,采购员可以从重复琐碎的验收环节解放出来,将更多的精力投入到资源建设工作中,提高采访质量,丰富馆藏;同时可以让编目员做更专业、更有创造性的工作,如原始编目、数据监控、规范控制、数据维护等。
为了实现自动验收、加工、编目、分拣等功能,智能作业系统将涉及工业自动化系统、机器视觉、OCR文字识别、智能分拣等技术的应用。
(1)从其他行业类似的应用上看,图书贴码覆膜、盖章、翻书、分拣等操作在其他行业已有成熟的技术应用,如食品行业的自动贴码机、银行使用的自动盖章机、数字化加工使用的自动翻书扫描机、快递行业的智能分拣等,稍加定制改造就可以应用于图书的验收、加工、分拣作业。
(2)从涉及的技术上看,人工智能技术虽然在其他领域已有应用案例,但在图书采编领域的应用目前还处于发展阶段。如机器视觉已应用在汽车生产线瑕疵检测、视频监控分析等多个领域[8],OCR文字识别系统在名片、身份证、车牌、发票等的识别认证上也有成熟应用[9]。机器视觉和OCR识别技术的实现过程非常复杂,应用于图书馆场景需要具体问题具体分析,应用这两种技术需要进行的机器学习采用哪种训练方式,如何收集、清洗数据,如何快速形成有效模型等等,都需要不断探索,所以这是采编智能作业系统建设的一个难点。
(3)从理论上看,图书馆行业已有图书编目工作的标准化、规范化和网络化基础,随着机读目录格式的普及应用、联机编目数据的共享和《中国图书馆分类法》web版的制作,理论上已经为进一步对接工业自动化系统和人工智能等新技术奠定了基础[1]。
工业自动化系统和人工智能技术应用于采编作业已具备一定的技术基础和理论基础,虽然在应用上还存在一定的难度,但采编作业智能化理论上是可以实现的,结合图书馆业界的“十四五规划”对智慧图书馆的发展战略来看,探索和研发采编智能作业系统的时机已经成熟。
随着社会的发展和科技的进步,对于重复和繁琐的劳动,不管从效率还是成本上看,机械化、智能化替代都是趋势。而目前国内图书馆界还没有实现集验收、加工、编目、分拣为一体的智能化作业系统落地,笔者认为主要原因有三个:
第一,目前国内图书馆外包业务成熟,个别图书馆甚至引入社会力量将所有业务全部外包[10]。采编业务的外包主要是加工和编目业务外包,图书馆通过招标,把图书的加工、编目业务以合约的方式外包给中标书商完成(外包的形式一般为派驻进馆作业)。当前,在有质量把控的前提下,加工编目业务外包具有极高的性价比,可以减少图书馆采编人员的负担,加快文献处理的速度,解决图书积压问题,缩短采编作业周期。
第二,图书馆属于公益性机构,资金来源主要依靠政府拨款。即使人工智能在其他行业已有应用的基础上,研发一套适用于图书采编的智能化作业系统所能带来的社会效益并不明朗,时间成本和金钱成本非常高,只有经济发达地区的大中型图书馆才有实力研发。
第三,图书馆界目前还没有完全认识到人工智能影响图书馆事业发展的巨大潜力,对人工智能的最新发展趋势和动态缺乏敏感,对如何发展智能图书馆还缺少全国层面的统筹规划,没有在全局上提出纲领性的指引,实现对图书馆核心业务的全面升级。目前的智能化大多还只是零星地应用于图书馆业务的某个环节,距离真正的全流程智能化还有很大的距离。同时,图书馆界缺乏人工智能方面的专业人才,导致图书馆在与馆外机构合作研发中处于被动,使得智能化应用不能很好地贴合图书馆的发展要求。
采编智能作业系统建设的最终目的在于从图书拆包之后至采编完成、配送至各阅览室之间的现有多个人工处理环节,实现自动化、智能化、可视化。整体的建设思路是先打通各个流程,将系统模块运行起来,然后不断优化标准图书的自动验收、加工、编目、分拣等操作,最后逐步向非标图书覆盖。
结合业务流程,智能作业系统需实现四个功能模块:验收加工模块、编目模块、加工分拣模块、可视化管理模块(见图3)。验收加工模块是四个模块中流程最多、技术最复杂的模块,应参考人工操作流程,设计合理高效的作业系统,并运用PLC技术将各个系统串联起来,实现效率同步;编目模块的最终效果是实现基于OCR技术的自动编目,使用大量的已校对编目书目数据(监督数据)进行机器学习,不断完善AI算法与模型,增加自动编目的准确率;加工分拣模块是目前在图书馆应用最成熟的模块,需结合分拣技术和场地大小选择分拣方式;可视化管理中心能实时监测控制流水线运转,将作业数据可视化。
5.2.1 验收加工模块
图3 智能作业系统流程图
验收加工模块要实现的功能是替代人工验收、加工,形成一套适合机械作业的标准图书智能化作业系统,并逐步向非标图书(如多卷书、地方文献等)覆盖。模块应用的技术有机器视觉、OCR文字识别、机械手翻页、RFID标签读写等。
具体的作业流程:将批量图书送上流水线(封底朝上),通过摄像头扫描图书封底ISBN号和书脊侧信息,将非标图书和正面朝上的图书剔除,通过ISBN号搜寻系统订单并验收登到分配条码,打印条码并贴好,翻页贴RFID标签并写入图书数据,将图书反转至正面朝上,扫描封面文字、读取RFID标签并验证订单(订单信息如不匹配将剔出作业系统),通过机器视觉判定起始页,起始页贴条码盖馆藏章(条码从RFID中读取)。此作业流程对应的子系统有:送书系统、扫描阵列、非标书剔除系统、验收贴码系统、翻页贴RFID标签系统、图书反转装置、封面扫描系统、打码盖章系统等(见图3验收加工模块),所有的子系统都应加载小型的PLC装置,便于后期系统总装控制。
此模块建设的主要难点有:①图书姿态确认。错误的图书姿态会严重影响后续操作,需要多个CCD工业相机扫描封底和书脊侧做图像识别,通过机器视觉(需进行机器学习)确认图书背面朝上,确认图书无重叠。同时,在图像处理方面需配置专业的GPU和足够的带宽,提供强大的计算能力以支持多个工业相机同时运行。②非标图书的验收。多卷书、地方文献(无ISBN号无版权页)等在人工验收时需进行订单拆分、新建订单等操作,如何通过机器学习有效解决订单拆分问题是自动验收作业面临的最大挑战。③OCR文字自动识别。需要对机器进行大量的训练学习,通过对图书不同放置姿态下文字的提取和分类训练,让机器能自动识别提取图书封面、封底和书脊侧的关键信息,如题名、作者、出版社、ISBN等。④由于每个子系统的功能差异大,由同一家设备生产商完成所有子系统的制造比较困难,所以在技术论证的过程中,需要统一各个子系统之间参数,做到统一规格,这样在调试和总装过程中不会因为技术参数不同而影响总体运行。
5.2.2 编目模块
编目模块的主要功能是实现自动编目,机器将实时扫描的图书内容上传云服务器,AI对图书特征信息进行识别,完成编目之后向图书馆业务自动化系统输出书目数据。此模块主要的难点是机器学习,只有让机器进行大量的监督数据(完成校对的数据)学习,AI算法才会不断优化,形成的模型才会越有效,识别图书内容特征辨别图书分类的准确率就越高。同时,编目模块需要多条线路并行运行,整体上才能匹配验收加工模块的处理效率,不造成资源浪费。此模块对应功能子系统为自动翻页扫描编目系统,对于图书应该扫描的部位和书页数量,应当进行充分的论证和实验,兼顾模块之间的效率衔接和实用性,不影响数据校对人员查看图书关键内容页。
自动编目是整个作业系统最核心的功能之一,机器学习需要上传大量的数据供AI训练,不断完善模型。训练需要的大量数据和快速传输会造成图书馆服务器的巨大压力,影响图书馆的日常服务,所以使用云服务器是基于效率和经济的最佳选择。因此,在与馆外机构合作研发的时候,图书馆要重视馆藏书目上传云端可能带来的数据资源资产的安全问题。在未来,数据的形态可能会有变化,但图书馆的所有业务支撑都依托于数据是不变的,馆藏数据是省馆区别于其他类型图书馆的关键。
5.2.3 加工分拣模块
编目后加工分拣模块主要实现的功能是图书贴索书号、覆膜、智能分拣。此模块对应的子系统为贴索书号覆膜系统、智能分拣系统。贴索书号、覆膜是将AI自动编目生成的索书号贴在书脊,并将索书号和封底的条码覆保护膜。智能分拣系统在物流领域的应用已经比较成熟,在图书馆业界也有大量应用,如广州图书馆、中山市纪念图书馆使用的流水线式的智能分拣系统,深圳市宝安区图书馆、南沙区新图书馆使用的AGV智能分拣系统均已投入使用[6]。智能分拣系统对场地和行进路线的规划需要考虑图书类型(如保存本图书、少儿图书等)和图书分类,有条件的图书馆还可以加入垂直搬运功能,提高图书入库上架效率。此模块可以不和前面的模块做效率同步,设计之初还应考虑到流通还回图书的分拣搬运等功能。
5.2.4 可视化管理中心
可视化管理中心是生产控制中心,主要的功能是实时监督和控制作业流水线的生产情况。此模块需要用到PLC技术对整个流水线进行控制,最终实现两个功能子系统,分别是监督展示中心和作业控制系统。监督展示中心可以实时显示监督流水线生产情况和进行大数据管理,未来人工智能技术成熟时还可显示AI实时演算情况,具备一定的观赏性;作业控制系统是基于PLC技术的自动化流水线控制,具有较强的安全性、可靠性和灵活性,通过程序编辑设计传递相应指令可以做到精准控制各个子系统执行作业,并检测各个元件状态[11],流水线一旦出现突然异常情况,也可以及时控制机器停止运行。
只有蓬勃发展的读者服务前端和采编业务后端互联互通,才能实现图书馆业务工作及服务活动的智慧化管理。可以预见的是,在基于工业自动化系统和人工智能等技术的采编智能化系统成功落地之后,最显著的效果就是彻底解放人力,提高工作效率,降低图书加工编目成本,为图书馆带来良好的社会效益和经济效益。而随着人工智能的技术进步,图书自动编目、分类标引的准确率会越来越高。在未来我们可以建立编目云数据中心,出版行业每出版一本书,只要上传特征页图片到云数据中心,就能反馈得到标准的编目数据。长此以往,可能会颠覆上游出版业的工艺流程,让封面封底扉页版权页实现标准化。