李晓鸣 任思琪 薛尧予
(国家图书馆 北京 100081)
我国从20世纪90年代开始建设数字图书馆,目前已建成资源丰富、技术先进、覆盖面广的数字图书馆服务体系。2019年4月16日,文化和旅游部办公厅印发了《公共数字文化工程融合创新发展实施方案》[1],提出创新公共数字文化服务业态、提升服务效能的要求。图书馆服务从数字化转向智慧化,既是为了满足人民群众的精神文化需求,也是时代发展的使命和任务。
初景利等[2]提出,智慧图书馆是在智能图书馆的基础上发展而来,虽然二者都形成了图书馆的全面感知,但智能图书馆的核心驱动是物的智能,智慧图书馆的核心驱动则是人的智慧加上物的智能。戴莹[3]研究了人工智能与图书馆的融合发展,提出图书馆智慧化发展的关键是人工智能技术在图书馆业务及服务各个环节的渗透与应用。陆康等[4]提出,智慧图书馆的形态将是“万物相连、人机混合”,线上空间与实体空间并存,用户与计算机系统趋于人机混合,而实现“万物相连”。饶权[5]总结,图书馆亟须向智慧化转型,为社会提供更便捷高效、更具智慧化的信息与知识服务。根据饶权的归纳,智慧图书馆的四个显著特征为:图书馆业务全流程智慧化管理、知识资源全网集成、知识服务生态全域连通、学习阅读空间的虚实交互。
目前对智慧图书馆的技术体系研究分为以下几类。
第一类是研究技术功能结构。康晓丹[6]曾提出了智慧图书馆技术实现模型,分为感知层、计算层和交互层。感知层作为基础,承载了上层的计算(决策)和应用交互。周萍等[7]提出,图书馆空间需要满足智慧空间的要求,从实体空间、虚拟空间、创新空间三个方面规划布局和功能。
第二类是研究目前存在的技术问题。刘炜等[8]指出,阻碍智慧图书馆的泛在感知能力的关键在于网络带宽,5G网络技术将突破这一障碍。吴建中[9]提出,当前图书馆转型的主要问题之一是技术研发弱,虽然对大数据、微服务等的应用不少,但缺少云系统等更深层次的系统研发。李玉海等[10]提出了智慧图书馆建设的三大难题,其中第三点是管理、服务等既有业务的智慧化转型流程尚不具体。杨文泓[11]提出,在人工智能时代图书馆发展面临的问题有技术研发弱、大数据采集困难等。冯银花[12]提出了“VR+数字资源”的运用模式,打破时空界限,提供生动立体的知识内容交互。但目前VR软硬件还存在技术成本高昂等问题。
笔者在总结智慧图书馆功能定位的基础上,对图书馆智慧化转型的技术体系进行了全面梳理,并提出了智慧化转型的技术应对策略。
笔者采用文献调查、网络调研与实证研究相结合的方法,使用 Web of Science、SpringerLink、EBSCO、ProQuest、CNKI等中外文数据库作为文献来源,对国内外图书馆智慧化建设情况进行了调查与分析,从理论与实践两个视角,对国内外智慧图书馆建设情况进行了案例分析与技术剖析,得出图书馆实现智慧化转型的技术应对策略。
图书馆智慧化转型是对以往图书馆业务、资源、空间、服务等方面的颠覆,数据资源揭示更具深度、服务模式更多元、图书馆功能进一步拓展,并逐步形成知识服务生态圈。图书馆智慧化转型,意味着图书馆各个功能的智慧化,包括智慧化的业务管理、智慧化的资源建设、智慧化的空间再造、智慧化的知识服务。表1基于图书馆智慧化的功能定位梳理了对应的支撑技术,其中,物联网、5G技术和云基础设施是所有功能的底层支撑。
表1 图书馆智慧化的功能定位及其支撑技术
智慧化意味着可根据即时情况,灵敏迅速地发布指令,本质是对瞬时变化的大规模数据进行速度极快的处理。物联网技术可以主动感知并采集数据,云基础设施提供了灵活变化的计算和存储资源,5G网络技术保障了低延迟的瞬时决策过程。因此,云基础设施、物联网、5G网络是智慧图书馆各个功能实现的共同基础。
2.2.1 智慧业务管理的技术体系
图书馆业务智慧化,意味着图书馆业务从人工走向全自动化。其目标是尽可能地减轻人工作业所占的比重,让业务管理实现自动化运行。“智慧化”的一大特点是具有预测性,图书馆能“猜”到用户所需的服务和资源,也能预测群体和社会的需求变化,适时做出调整和改变,适应不同场景、不同群体的服务需求,最大化地合理分配资源,提高人力物力的利用率。
对于图书馆的业务管理,智慧化的功能定位包含主动预测、自动决策、弹性调整、节能高效。其核心技术包括云基础设施、物联网、5G技术、机器学习和数据挖掘分析。
2.2.2 智慧资源建设的技术体系
图书馆资源建设已经从单纯的数字化和简单的资源揭示走向了深度的资源揭示和知识关联、知识图谱等知识化的处理方向。其中,数字化是利用目录数据和图像数据实现电子文献网络流转、内容资源管理、电子图书利用查询等功能;数据化是利用文本数据及业务要素,实现全文检索、要素抽取、统计分析等功能;知识化是通过知识碎片化和知识关联重组,再经过知识表示和知识挖掘、知识链接等处理,将知识规范有序地组织在一起并存储起来,并实现专题库、智能推荐、个性化服务等功能。
图书馆智慧资源建设的功能定位,就是将资源从数字化到数据化,最终实现知识化。其核心技术包括智能文字(图像)识别(例如OCR)、数据挖掘分析 、知识图谱、知识表示等。
2.2.3 智慧空间再造的技术体系
未来智慧图书馆将在空间及理念上进行突破,打造面向多元文化需求、具有学术、创新、交流、娱乐等多重功能的新型智慧实体空间。物联网等技术对图书馆实体空间进行再造,如智能物流体系可以与图书馆阅览室的书架管理工作相结合,将图书整理和还架、倒架等工作流程全部实现自动化,还可以实现依靠索书号自动导航帮读者取书的功能。实体空间环境还能实现智能监控,自动调节室温、湿度、光照并具备消防预警功能。到馆服务与线上服务功能无缝互联,读者可以享受富媒体内容服务。
图书馆智慧空间再造的功能定位,包含空间定位和环境监控、人机展示互动、身份识别。其核心技术包括人机交互、生物特征识别(人脸识别和语音识别)、VR、AR等。
2.2.4 智慧知识服务的技术体系
智慧图书馆服务与数字图书馆服务的主要区别在于,前者的服务方式从人工转向自动化、从被动转向主动、从普适性转向个性化。智慧图书馆服务将更加人性化,具体表现是:用大数据技术为每位读者进行用户画像,分析个人喜好,洞察预测读者行为,并进行智能化推荐;通过各种智能终端和人工智能语音语义技术为读者提供更精确的内容推荐;通过人脸识别、声纹识别等生物识别技术,对用户进行精细化管理,同时开展群体分析或个体分析;使用新一代智能显示与互动技术,创造性地展示馆藏文化资源,挖掘和呈现知识之间的关联。此外,图书馆还可以提供可定制的分析决策知识服务,面向个人、机构、政府部门提供各类专业咨询。
图书馆智慧知识服务的功能定位,包含智慧发现和问答、个性化服务、知识定制等。其核心技术包括智能文字(图像)识别(例如OCR)、机器学习、智能检索、生物特征识别(人脸识别和语音识别)、自然语言处理等。
3.1.1 节能高效
未来,云基础设施的部署将更加个性化,可以根据每家图书馆的具体情况,形成不同的部署方案。例如,边缘云存储有助于保证数据资源的安全,适合图书馆解决知识产权问题和用户个人信息保密问题。公有云适合托管图书馆各种服务的小型应用程序,节省本地空间。云端加载程序从本地调用部分数据,既保证了核心业务的稳定,又兼顾了灵活性和低成本。另一个考虑云基础设施部署的原则是根据网络连接性的不同需求进行部署,需要快速连接的部分可以离本地更近,可以预加载的内容则托管在云端。
国家图书馆的沉浸式阅读空间,为读者提供了大屏全景视频播放和VR沉浸式阅读体验。为了保障VR视频播放的流畅度,该空间采用华为云和边缘云部署网络架构,本地的VR终端拥有三维显示与交互能力;边缘云拥有实时渲染和传输能力;公有云拥有直播、点播视频转码能力及渲染调度管控能力。它通过5G网络、华为云提供上行加速服务和对象存储服务(Object Storage Service,OBS),使VR直播流及音视频文件能够快速、可靠、稳定上云。云渲染平台拥有集群管理能力,对资源进行统一管理,并可实现中心—边缘云的智能调度,为读者体验匹配更佳算力。
3.1.2 主动预测
实现主动预测的核心技术是物联网。物联网的感知层可持续采集相关数据,并上传到云端,为系统决策提供支撑。利用机器学习、数据挖掘等人工智能技术,图书馆可迅速决策,进行高效、灵活、互联的智慧业务管理。例如,荷兰国家图书馆[13]通过BLIIPS项目建设数据驱动的智能化公共图书馆。该项目在图书馆内部空间设置大量传感器收集数据,并使用数据分析算法进行试验。国家图书馆构建了针对“国图公开课”用户的学习行为分析系统[14],实现了事件相关性、事件排名、网络社交三类行为要素的可视化,有助于预测“国图公开课”用户的学习过程。
3.1.3 自动决策
智慧图书馆可以通过采集各类数据进行统计分析和数据挖掘分析,并基于结果进行自动决策,帮助指导资源采购、场馆人流管理、阅览室利用率分析、资源揭示统计、读者服务满意度分析等。
目前,国家图书馆的大数据统计分析系统正处于建设初期[15]。该系统借助“掌上国图”App进行数据采集和汇总,分析读者类型及其占比;通过门禁系统数据构建进馆读者流量的时间轴;分析每日借还书的数量、统计借阅排行榜数据。未来,国家图书馆将逐步开发数据统计分析系统、信息智能化分析系统、图书资源智能分类系统等。
3.1.4 弹性调整
大数据时代随着社会需求的改变,各个图书馆之间的业务内容差异也越来越大。图书馆的智慧化意味着每一个图书馆都拥有独一无二的功能,统一的标准化系统将被定制化、差异化的业务管理体系所取代。未来的图书馆业务系统将搭建在云端,以云基础设施为支撑,搭载物联网,运用数据挖掘分析等技术来辅助业务的智能化管理。
目前较为热门的下一代图书馆平台FOLIO[16],由EBSCO及其全球合作伙伴提供支持。FOLIO是图书馆、开发人员和供应商合作构建的开源图书馆服务平台,包括当前图书馆管理系统中的核心功能,同时其具备的可扩展性,使图书馆能够满足用户不断变化的需求。FOLIO由多个小的应用程序组成,并提供开发的API。目前,全球应用FOLIO系统的图书馆已超过40家,国外图书馆包括瑞典查尔姆斯理工大学、美国密苏里州立大学、美国阿拉巴马大学、英国利物浦大学等高校的图书馆;国内的图书馆包括上海图书馆、上海交通大学图书馆、深圳大学图书馆等。
饶权[17]曾提出,图书馆面向智能化时代转型的挑战之一,就是海量碎片化信息呈指数级增长,这对图书馆信息保存提出了更高的要求。
3.2.1 数字化到数据化
图书馆资源的数字化—数据化的过程主要是通过文字识别技术(OCR)提供用于印刷文字、手写文字、复杂票据、复杂表格、身份证、银行卡等多种场景下的文字检测、定位、识别等功能,将不同载体上的文字进行识别和抽取,并有针对性地进行处理。例如,图像识别方面,华东师范大学与汉王公司联合开发的数据人文平台,实现了古籍自动识别和古籍自动句读。
3.2.2 数据化到知识化
数据化—知识化的过程主要是利用知识抽取、知识图谱、知识展示等技术,提供多维融合、智能问答、知识溯源等服务。文献经数字化采集后,被深度加工成各类数据和最小的语义单元,并进行知识数据关联,对知识数据信息进行组织和整合,汇聚成专业、精确、海量的智慧图书馆知识库仓储数据池。图书馆要实现实体文献资源和数字资源的一体化、智能化管理,以及数字资产的全生命周期管理,包括图书馆数字资源的生产、发现、获取、长期保存等。
国家图书馆以国图公开课的视频内容,探索了可视化模型的应用[18],利用文本挖掘技术从视频内提取了人物、时间、地点、事件等信息,并构建了关键词词云、地理标签云图、时间轴标签云图等。
3.2.3 多媒体特色资源建设
资源建设还可以融合多媒体技术。2021年,图家图书馆推出了5G全景文化典籍《永乐大典》[19]。这是国家图书馆与中图云创智能科技有限公司联合开展的首期全景VR产品。读者可以通过三折幕大屏、智能电视和VR眼镜沉浸式体验5G全景文化典籍《永乐大典》的内容。下一步国家图书馆将继续聚焦四大专藏等特色馆藏,利用5G+VR技术手段,开展新型数字资源建设。
3.3.1 空间定位和环境监控
物联网等技术加速了图书馆传统空间的智能化。如智能物流体系可以与图书馆阅览室的书架管理工作相结合,将图书整理和还架、倒架等流程工作全部实现自动化,还可以实现依靠索书号自动导航帮读者取书的功能。泛在连接的环境监控系统可以随时感知温度、湿度和光照情况,并自动调节,为读者营造舒适、良好的阅读环境。
西班牙马德里梅科公共图书馆[20]应用RFID和ZIGBEE技术,帮助用户定位图书。奥斯陆新公共图书馆[21]自2020年开放起,就为读者提供自动找书服务:读者通过电脑发布找书需求,自动分拣设施从书架提取,并送到提货台,读者收到通知后前往取书。
3.3.2 人机展示互动
图书馆智慧化转型要求图书馆服务采用更丰富的交互方式,常见的交互技术主要包括多屏多点触控交互技术、语音互动技术、体感传感技术等。另外,交互与显示技术结合的VR、AR、MR、裸眼3D技术等,有助于打破虚拟与现实的分界,是较为常见的多媒体技术。国家图书馆的“印象数图”数字图书馆体验区(下文简称“数图体验区”)自主开发了VR、AR、体感互动、大屏多媒体联动等不同系列的科技互动展项。数图体验区于2016年推出“VR诵经典”古诗词虚拟现实阅读体验项目,将虚拟现实技术与国图“文津经典诵读”200首古诗词资源相融合,以春夏秋冬为线索,设置了“流觞曲水”“怀素书蕉”“金秋明月”“铁崖苦读”四个场景。该项目通过互动体验引导读者在虚拟空间阅读传统古诗词,让读者获得古诗词意境的沉浸式体验,激发公众对于中华古诗词的兴趣。AR阅读体验项目是数图体验区于2017年推出的创新型服务项目,通过手机应用程序扫描AR展示图片,在手机上呈现出虚拟场景与图片画面实时叠加的影像,让读者可直观地了解古诗词、中草药、百家姓等中国传统文化。
3.3.3 身份识别
生物特征识别技术是基于个人生理或行为特征进行自动身份鉴别的技术,如指纹、声音、手部特征、签名等。目前研究和使用的生物特征识别技术主要有:人脸识别、虹膜识别、手形识别、指纹识别、掌纹识别、签名识别、声音识别[22]。与图书馆关联的生物识别技术主要包括人脸识别、语音识别、指纹识别等,例如旷视科技[23]推出的人脸识别开放平台Face++,可以精确实现人流分析、轨迹跟踪和行为分析等功能;国家数字图书馆App目前可实现语音输入的检索功能,能够辅助听障人群或老年人更好地查找资源和使用服务。2019年,数图体验区开发了基于人脸识别的未来图书馆体验展项,通过人脸识别验证用户身份,并分析其借阅历史,进行个性化借阅推荐。
3.4.1 智慧搜索与发现
通过语义搜索、图像OCR识别等智慧检索功能,读者可进行资源检索和结果排序。基于海量知识仓储数据池,知识资源共享平台可帮助读者获得更精确、可延展的知识发现服务。塞维利亚大学图书馆[24]开发的OSRUS系统,结合AI技术,实现了语义搜索功能。它的核心包括本体知识库、搜索引擎和用户界面,通过将内容封装在知识库,搜索时先提取元数据进行匹配,再应用CBR技术进行推理。
3.4.2 个性化推荐
个性化推荐功能主要包含身份识别和基于用户数据分析的推荐。生物特征识别技术可帮助图书馆快速识别每一个用户个体,并对用户个体进行身份识别以形成用户个人特征数据库,还可以结合用户行为数据进行分析,并通过数据挖掘、聚类等过程为用户提供个性化推荐服务。
国家图书馆利用“国图公开课”的用户信息,构建个性化信息服务模型[25],基于用户显式行为的数据分析,挖掘用户的隐性兴趣特征,并将其应用到个性化信息推荐服务中。
3.4.3 知识定制服务
图书馆服务从信息服务到知识服务再到智慧服务,此过程对资源数据的处理要求不断升级。智慧服务要求通过知识表示、知识挖掘等过程,从数据中获取实体及新的实体链接和新的关联规则等信息;通过知识推理过程,从多维角度组织和分析不同领域知识间的相互关联,根据知识图谱中已有的知识,推断出新的、未知的知识,并形成不同的知识图谱数据库并存储。知识展示技术是针对不同的需求进行不同知识的可视化呈现,具备可视化、语义化功能,可帮助专家学者查阅、检索相关知识。
另一方面,图书馆也存在数据资源开放共享的需求,以让更多的人获取均等、便利的知识服务。由马来西亚国家图书馆[26]牵头,利用物联网技术等建设的全国互联的智慧图书馆体系,让乡村图书馆也成为本地化的知识共享中心,其远景目标是在东南亚范围建立一个智慧图书馆联盟,成员国可共享知识资源。
未来,智慧图书馆的程序系统将直接在云端搭建,并且具备低耦合的架构,利用分布式存储和容器化技术,使程序的功能模块既相互独立,又能在底层统一融合,具备灵活的重构性,且应用与应用之间能保持独立。因此,在技术结构上,与过去相比产生了极大改变。文章基于“云原生”的建设规划,对数据中台和业务中台、图书馆微服务架构等重点部分进行了探讨。
随着云计算的不断发展,传统技术架构已不能满足智慧图书馆需求,“云原生”架构应运而生。“云原生”架构指在规划建设新的系统和服务之初,就考虑基于云基础设施搭建,而不是在本地开发之后再移植到云端。
智慧图书馆采用“云原生”架构,目的是尽可能地将图书馆业务与其他非业务的功能剥离,避免图书馆业务受到非业务功能的干扰,以此提高图书馆业务功能的敏捷性和灵活性。而基于“云原生”的架构,应该把图书馆的业务系统拆分为三个不同的部分[27],即基础设施、业务代码和第三方接口。其中,基础设施包含了与图书馆业务功能无关的支撑能力,例如硬件网络、弹性计算、数据安全等方面;第三方接口是指图书馆依赖的第三方数据库调用接口;业务代码则是图书馆最核心功能实现的部分。
云原生的架构方式有很多,比较典型和常用的架构包括服务化架构模式、中间件架构模式、Serverless模式等。服务化架构模式指以应用模块来划分若干子系统,用容器化部署来实现彼此独立运行。中间件架构模式则是将业务功能的核心部分下沉,成为中间支撑平台,大部分功能由中间件实现,在应用端只保留很少的通信功能。中间件架构模式的主要特征是“中台”的概念,这个概念来源于阿里巴巴集团[28],并逐步在互联网行业得到了广泛应用。中台就是建设在基础设施和终端应用之间的中间层,提供基础的功能模块共享,它还可以具体分为业务中台、数据中台等等[29]。其中,业务中台统筹业务功能模块;数据中台用于收集存储数据并对它进行处理和计算。Serverless模式则无关系统的部署,全部运行都托管到云,在发生业务事件时,云端会自动调用进程来处理。图书馆可根据实际情况,选择不同的架构方式。
业务中台是指将各个业务的共同需求进行封装和组合,为其他业务单元提供共性复用,从而提高业务的快速响应能力。在数字图书馆阶段,图书馆为实现某种服务功能,往往通过搭建新的服务系统去实现。然而,多个系统并列,不仅增加了管理监控的人力和金钱成本,还会在不同系统之间造成异构问题导致交流不畅。图书馆服务类型不断增多,但其底层支持模块具有重合性,因此,图书馆智慧化转型可以考虑建设通用的业务中台。业务中台作为前台服务的支撑,提供了中间的业务功能集成,实现了应用的轻量化,达成了应用与平台功能的解耦,方便应用的复用和扩展。图书馆进行业务中台建设,可以从两个方面考虑:第一,对于可重复使用的业务模块,提供封装好可复用的能力,如用户中心、数据统计等。第二,对于细分的服务应用,划分底层的通用功能模块,并进行统一管理和调用,形成基础的业务层。业务中台的建设要不断完善发展,才能提供更好的服务支撑。
数据中台是指提取各个业务的数据后,对数据进行清洗、整理、计算和加工,从而为其他业务提供数据支撑。除了业务中台以外,图书馆还需要建设数据中台。数据中台包含数据资源聚合管理、数据分析挖掘、数据治理等方面,具备资源采集合并、数据加工整理、数据可视化、数据按需组织输出等能力。在数字化采集后,资源文献被深度加工成各类数据和最小的语义单元,再利用数据挖掘等技术,对数据进行分析、挖掘、推理,揭示数据内容层面的关联和逻辑,并汇聚成云端的海量数据池。
根据服务应用层面的需求,数据中台可提供不同粒度的数据组织输出。例如,数据对象的元数据对数据对象进行描述;全文数据可供阅览或研究使用;知识网络和知识图谱可以提供知识的关联对比;全文的段落重组可形成主题咨询的分析报告等。数据中台可以根据服务对象的不同要求,支持微服务程序的数据调用。
图书馆服务的个性化、精细化,体现了未来知识服务的多样性趋势。未来,图书馆将面临服务形式不断衍生和细化的境况。相比通过一个App或网站打包所有服务,微服务是一种弹性扩充服务的技术架构,即每个服务程序独立存在,由松散耦合、可独立部署的部件组合而成,部件之间通过API进行数据交流。这就像拼积木一样,用基础的功能部件组装成不同的服务应用,这样可以围绕具体的业务功能构建服务程序,具有较大的灵活性、可重构性和容错性。微服务架构可以将图书馆大的管理系统拆分成一个个并行的子系统,每个子系统独立实现某个功能,不受其他并行的子系统干扰,而每一个子系统还可以继续细分。
图书馆系统若单独使用微服务架构也存在不适用性。在微服务架构中,各个子系统使用私有的数据库,但图书馆服务的特性决定了数据之间存在较强的耦合。例如,借阅子系统、检索子系统、个性化推荐子系统、参考咨询子系统等都会涉及对资源数据池的数据调用。为了解决该问题,图书馆可采用中台的架构,中台的架构模式是在微服务架构的基础上发展而来的。在中台的支撑下,图书馆可在服务应用层使用微服务架构。
智慧图书馆是以数字化、网络化、智能化的信息科学为基本手段,是更加高效和便利的图书馆运行模式,也是未来新型图书馆的发展目标[30]。“智慧地球”“智慧城市”呼吁人们建设开放共享、泛在链接的未来智慧生活。图书馆坐拥海量数据,既包括馆藏数字资源,也包括读者用户数据和行为数据等,可依托大数据资源池,接入智慧城市的开放互联数据平台。
当前,图书馆应当深化应用与探索最新科技,紧密结合图书馆业务和服务需求,以实现智慧图书馆为最高目标,努力弘扬优秀传统文化、创新服务方式、推动全民阅读,更好地满足人民精神文化需求,打通线上线下智慧服务路径,形成多维文化地图,为用户提供泛在知识服务,建设泛在智慧知识服务生态体系。
(来稿时间:2021年7月)