(南阳师范学院图书馆 河南 南阳 473061)
摘要:多模态馆藏数字资源的知识融合可以提高图书馆的资源利用效率和拓宽资源共享范围。文章在解析相关概念的基础上,分析了面向多模态馆藏数字资源的知识融合流程;借鉴关联数据链接融合法,从数字资源层、知识融合层和知识服务层构建面向多模态馆藏数字资源的知识融合与服务模型。面向多模态馆藏数字资源的知识服务包含自助式知识导航、场景化知识推荐、智能化知识咨询等服务;最后以多模态文物绘画数字资源为例进行了案例研究。
关键词:多模态数据;馆藏资源;知识融合;知识服务
中图分类号:G250.7 文献标识码:A
DOI:10.13897/j.cnki.hbkjty.2023.0072
信息技术的迅猛发展,为图书馆知识服务方式变革提供了新途径和新方向。知识融合的理念可以对馆藏数字资源进行有效融合,优化资源配置,实现馆藏资源的高效共享,为用户提供高质量的知识服务内容。开展面向多模态馆藏数字资源的知识融合与知识服务研究有利于深化资源建设,完善资源结构,提高服务效率,以及为建设智慧图书馆奠定基础[1]。同时,多模态馆藏数字资源知识融合技术可以协助图书馆提高知识发现能力,深挖用户需求和偏好,在用户需求与知识服务之间建立精准联系。
目前,图情领域关于多模态馆藏数字资源知识融合模式的研究主要在突变词融合法、语义融合法和人工智能技术融合法等方面,较少从关联数据链接融合角度探究多模态数字资源融合路径。例如,彭国超等[2]基于突变词,从共现词次数以及共现词数角度探讨知识融合方法,认为图书馆知识服务需要多模态馆藏数字资源提供支持;皇甫娟[1]从语义角度出发,构建了多模态数据知识融合模型,从学科服务、科研支持、空间服务三个方面提出了图书馆多模态数据资源知识融合的未来发展路径;李广建等[3]提出要借助人工智能技术、分布式计算处理技术、大数据技术等对馆藏数据资源进行加工处理,以实现馆藏数据知识融合,认为通过馆藏数据知识融合可以提高图书馆的智能化水平。因此,本文从关联数据链接融合法出发提出多模态馆藏数字资源的知识融合模型,以多模态文物绘画数字资源为例进行案例研究,以期为图书馆馆藏资源建设提供参考借鉴。
1 相关概念解析
1.1 知识融合
知识融合[4]是指根据知识资源的特征、使用目的,结合算法工具将采集到的知识资源融合在一起,以得到较高应用价值的知识。知识融合的算法包含语义规则[5]、贝叶斯网络[6]、D-S理论[7]、主題图
[8]、模糊理论[9]等。知识融合可以产生新知识,为用户决策提供新方向和新思路,使得知识服务更加高效[10]。目前,图情领域关于知识融合的研究主要集中在技术体系、案例研究等方面,例如,陈沫等
[11]从计算层、功能层和任务层总结了大数据背景下知识融合的技术体系;温芳芳等[12]以新冠肺炎为例,探讨一种多学科知识融合的方案。
1.2 多模态知识融合
模态可以是一种信息符号,如文字、数字、音频、视频等。多模态知识融合
[13]是指运用数据挖掘、知识抽取、知识关联等方法,对多模态数据进行价值抽取,将同一本体和概念相似的知识聚合在一起。多模态知识融合可以解决数据冲突问题以及发现数据的真实价值,更加客观与精准。目前,关于多模态知识融合的研究主要集中在融合路径、知识图谱构建等方面。例如,陈平等
[14]基于我国科技期刊集群平台,提出了多模态科技期刊融合与传播路径;王华琼等[15]基于医学社交媒体多模态数据,提出多模态知识图谱的构建方法。
1.3 知识服务
知识服务[16]是指通过一定方法汇集和处理各类资源,以帮助用户获取知识、解决问题,从而实现资源增值。知识服务可以满足用户对于知识应用和共享的需求,具有高度专业性、高附加值、强交互性、个性化等特性[16]。目前,图情领域关于知识服务的研究主要集中在体系构建、平台设计、服务模式等方面。例如,付露瑶等[17]基于数字素养视角,从应用层和保障层两方面构建了高校图书馆知识服务体系;郭雨梅等[18]基于开放科学的新形势,提出科技期刊知识服务平台应分为信息服务、产品服务和解决方案三个层次;魏大威等[19]从知识生产、组织、发现、传播、存储5个角度总结了Web 3.0背景下图书馆知识服务模式,以满足用户动态需求。
1.4 多模态馆藏数字资源
多模态馆藏数字资源指的是具有两种或两种以上模态(即多种表现形式)的馆藏数据。这些数据可以包括文本、图片、音频、视频等多种格式和表现形式。这种资源可以综合不同媒体类型的信息,以提供更丰富、全面的信息体验。例如,科技类论文是一种多模态数字资源,因为它既包含文本类数据(例如论文的文字内容),也包含实验数字类数据(例如实验结果的图片、视频或其他数字化的数据)。这样的多模态资源能够更好地展示研究成果,使读者能够通过多种感知方式更好地理解和吸收信息。
综上所述,面向多模态馆藏资源的知识融合与服务是指运用数据挖掘、知识抽取、知识聚合等多模态知识融合方法,将多模态馆藏数字资源进行知识关联、知识融合,深入挖掘知识价值,最后根据知识融合结果与用户需求进行匹配,帮助用户获取知识、解决问题,从而实现多模态馆藏资源知识增值,提高资源利用效率。
2 面向多模态馆藏数字资源的知识融合流程
图书馆拥有海量的数字资源,来源多元,具有多模态的特性,包含了文本、图片、音频、视频等多种媒体类型。图书馆可以充分利用馆藏资源多模态特性,提供多样化的服务和功能。比如,通过文字搜索、图像识别、语音搜索、视频播放等功能,使用户可以根据自身需求以多种方式访问、获取和利用数字资源。本文结合知识融合相关研究成果,将面向多模态馆藏数字资源的知识融合流程分为资源采集与处理、知识抽取与描述、知识聚类与融合、知识服务与应用。
2.1 资源采集与处理
资源采集与处理是多模态馆藏数字资源知识融合的基础,该过程包含馆藏资源采集、清洗、统一标准与存储。一方面,图书馆需要通过爬虫等工具从自建数据库、第三方数据库等采集馆藏资源;另一方面,由于馆藏数字资源包含文字、图片、音频等模态的资源,图书馆需要利用CVAT、VOTT等工具进行多轮标注,结合现有实体及语义关系标注规范进行一致性检验,从而获得统一的多模态馆藏数字资源数据集。最后對加工好的馆藏资源进行存储,以方便后续知识抽取与描述。
2.2 知识抽取与描述
知识抽取与描述包含知识单元抽取、实体对齐两部分。首先,对已采集的多模态馆藏资源进行知识单元抽取,采用N元组描述知识单元,建立知识间的关系;其次,进行实体对齐,判断不同模态的数据实体是否指向同一对象,可采用AlignE等方法实现实体对齐;最后,建立多维度实体对,为知识融合奠定基础。
2.3 知识聚类与融合
知识聚类与融合是指对多模态馆藏数字资源中抽取的知识单元进行关联、聚类和融合。目前,关于关联数据的知识融合方法主要有两类[20]:一是关联数据链接融合法。关联数据融合法包含实体抽取、实体链接两部分,实体抽取可利用上述知识抽取模型完成,实体链接可利用关联数据的知识融合方法建立实体与实体间联系,从而实现多模态知识融合。二是相似度算法融合法。相似度算法融合是利用相似度算法计算来判断不同实体间的相似性,然后将相似度高的实体进行融合,从而实现知识融合。
2.4 知识服务与应用
多模态馆藏数字资源知识融合的目的是满足用户日益增长的知识需求,提高馆藏资源的利用效率,实现知识增值。因此,面向多模态馆藏数字资源的知识服务可在知识融合的基础上,借助相关系统平台,为用户提供知识决策、使用和创新服务,例如,关联性知识检索、场景化知识推送等服务,全方位提高图书馆的智慧化水平。
3 面向多模态馆藏数字资源的知识融合与服务模型
基于上述知识融合与服务流程,本文借鉴关联数据链接融合法,从数字资源层、知识融合层和知识服务层构建面向多模态馆藏数字资源的知识融合与服务模型(见图1)。数字资源层是基础层,实现多模态数据的采集和加工处理;知识融合层是核心层,通过词表映射、实体识别等实现知识融合,构建多模态数字资源关联数据集;知识服务层是应用层,可为用户提供自助式知识导航、场景化知识推荐、智能化知识咨询等服务,提高多模态馆藏数字资源的利用效率。
3.1 数字资源层
数字资源层是多模态馆藏数字资源知识融合的基础。由于数字资源多模态的特性,数据不统一,访问接口不一,因此,该层需要对采集到的数据进行加工处理,形成统一的数据集。首先,将采集到的多模态数据按照制定的元数据标准进行重新描述;其次,抽取相关的实体和属性,构建领域本体;接着,为每个实体赋予单独的URI标识,并通过转换器等自动化工具将其转化成RDF格式;最后,在每个资源间建立RDF链接,为形成关联数据集奠定基础。
3.2 知识融合层
多模态馆藏数据之间会采用特定的词汇表术语和本体来描述数据,这导致数据集间不能实现共享,因此,需要建立关联数据集间的关联关系来实现知识融合。知识融合层是多模态馆藏数据资源知识融合模型的核心层,主要是通过相关原则实现知识聚类、分析和融合,建立一个多模态馆藏数字资源的关联数据集,为知识服务与应用提供支持。首先是词表映射,查找到同一概念或者关系的不同表述,映射并关联;其次是实体识别,将指向同一实体的数据建立关联;最后是知识融合,对同一实体对象进行筛选和融合,构建新的知识网络,形成多模态馆藏数字资源关联数据集。
3.3 知识服务层
知识服务层主要是为用户提供服务,该层的关键是准确理解和分析用户的知识需求,建立需求与多模态馆藏数字资源间的匹配关系,实现精准服务。多模态馆藏数字资源关联数据集通过查询和传送引擎为用户提供导航、查询和个性化定制服务,实现对多模态数字资源的关联性知识检索、场景化知识推荐、智能化知识咨询等,用户可以使用浏览器、搜索引擎等工具来调用服务功能;自助式知识导航服务是通过知识导航动态显示知识关联结果,协助用户挖掘到感兴趣的主题,方便用户全面掌握知识点;场景化知识推荐是将用户所处情境与关联数据相匹配,为用户提供特定情境下的知识推荐,满足用户动态需求;智能化知识咨询是指一对一的实时咨询,用户只要输入需求,系统会自动提取知识关联结果,实时反馈用户需求,从而实现智能化参考咨询服务。
4 面向多模态馆藏数字资源的知识融合与服务案例研究
由于文物绘画数字资源中包含文字、图片、音频、视频等格式,数据来源广泛,具有典型的多模态数据的特征,故本文以文物绘画数字资源为例进行面向多模态馆藏数字资源的知识融合与服务的案例研究。根据上述模型,本文主要从元数据标准设计、本体构建、知识融合以及服务应用四个方面进行分析。
4.1 多模态文物绘画数字资源的元数据设计
由于文物绘画数字资源种类繁多,描述文物数字资源需要注意的是既要揭示数字对象,又要与相对应的文物图片、文物实物等相互关联。本文对文物绘画数字资源的元数据设计参考了文物馆藏体系规范、DC等标准,结合文物数据特征加以修改与完善,构建了文物绘画数字资源的元数据标准(见表1)。
4.2 多模态文物绘画数字资源的本体构建
文物领域的本体类型包含一般概念本体、人名本体、地点和时间本体、事件本体、领域本体等。本文依据七步法构建多模态文物绘画数字资源本体(见图2)。一是明确领域与范畴。本文构建的文物绘画本体包含从古代到近代所有的绘画类文献,通过这一概念的界定,从而明确本体的应用范畴。二是评估已有本体的可用性。如果现有本体通过分析后可复用,这会减轻一定的工作量,提高本体的兼容性。三是列举术语和概念。为尽可能多的获取到文物绘画数字资源的相关概念和术语,可通过枚举的方式进行列举。四是定义类及层次关系。明确各个概念间的逻辑关系,建立层次结构。五是定义属性及属性关系。利用属性来描述每个类,定义属性与类之间的关系。六是本体实例化。选择一个类并创建类的对象,接着填写对应的属性和属性值,从而生成一个实例。七是本体检验。评估实体是否存在错误,并对实体进行校验。
4.3 面向多模态文物绘画数字资源的知识融合
多模态文物绘画数字资源的知识融合环节包含以下步骤:一是根据本体描述文物绘画资源,并将数据转化为RDF格式;二是数据发布,采用D2R模型将数据转化为RDF模型,利用d2rqmApping设计映射语言,实现数据关联和知识融合;三是通过URI与URI链接,为后续检索知识融合结果提供便利。
4.4 面向多模态文物绘画数字资源的知识服务与应用
上文通过设计元数据标准、构建本体等方式实现了知识关联与融合,通过MYSQL+ECLIPSE等开发技术设计面向多模态文物绘画数字资源的知识服务平台,用户只要输入相应的检索词,平台即可将知识融合结果反馈给用户。如,中国知网的博物馆业务服务平台就是将多模态文物资源进行了融合,为用户提供了自助式知识导航以及学者分析等服务,为用户了解文物资源提供了便利。
5 结语
探讨多模态馆藏数字资源知识融合与知识服务,有利于图书馆优化馆藏资源配置,拓宽知识来源,提高图书馆学科服务、科研数据服务能力,提升图书馆智慧化水平。未来图书馆仍需从以下几个方面完善馆藏数字资源知识融合模式与知识服务水平:(1)优化关联数据链接算法。根据实践经验以及用户反馈结果,优化元数据标准、本体模型、词表映射规则等,不断提高知识关联的准确性和可靠性。(2)深入分析用户需求。图书馆馆藏数字资源知识融合的目的是为了给用户提供高质量以及精准的知识服务,因此,未来图书馆需要借鉴先进技术深入挖掘用户需求,完善用户画像,在用户需求与知识服务间建立精准联系。(3)拓展知识服务内容。图书馆需要根据用户动态需求以及动态馆藏变化、动态知识融合结果,拓宽知识服务内容,为用户提供学科前沿分析、技术预测等服务,持续提高资源利用效率。
参考文献
[1]皇甫娟.面向知识服务的智慧图书馆多模态数据资源知识融合模式[J].图书情报导刊,2023,8(4):22-27.
[2]彭国超,孔泳欣,王玉文.多维指标融合的主题突变检测研究[J].情报学报,2022,41(6):584-593.
[3]李广建,罗立群.走向知识融合——大数据环境下情报学的发展趋势[J].中国图书馆学报,2020,46(6):26-40.
[4]庞莉,赵豪迈.供给改革思路下智库型图书馆与创客空间结合的知识极化机理研究[J].图书馆论坛,2018,38(6):16-23.
[5]GOU J,WU Y,LUO W.Knowledge fusion: a new method to share and integrate distributed knowledge sources[C]//Innovative Approaches for learning and knowledge sharing.Crete: Springer,2006.
[6]SANTOS E,WILKINSONA J T,SANTOSB E E.Fusing multiple Bayesian knowledge sources[J].International Journal of Approximate Reasoning,2001,52(7):935-947.
[7]ANDRADE D,HOREIS T,SICK B.Knowledge fusion using Dempster-Shafer theory and the imprecise Dirichlet model[C]//IEEE conference on soft computing in industrial Applications.Muroran:IEEE,2008.
[8]王海栋,郑骁庆,张红俊.基于置信度理论的网络知识融合系统和应用[J].计算机系统应用,2011,20(1):1-6.
[9]YIN Y,ZHANG L,LIAO W,et al.A knowledge resources fusion method based on rough set theory for quality prediction[J].Computers in Industry,2019(108):104-114.
[10]王敬東.基于知识聚合的数字图书馆信息智能检索模型[J].图书馆学研究,2014(21):72-76,71.
[11]陈沫,李广建.大数据环境下知识融合技术体系研究[J].图书情报工作,2022,66(20):20-31.
[12]温芳芳,郑诗嘉.基于关联规则挖掘的多学科知识融合研究——以新冠肺炎研究领域为例[J].现代情报,2023,43(3):148-156.
[13]尚宇炜,郭剑波,吴文传,等.数据—知识融合的机器学习(1):模型分析[J].中国电机工程学报,2019,39(15):4406-4416.
[14]陈平,宋启凡.基于自然资源期刊集群的多模态资源融合与学术传播路径研究[J].编辑学报,2023,35(3):321-325.
[15]王华琼,俞定国,钱归平.基于医学社交媒体数据的多模态知识图谱构建[J].医学信息学杂志,2023,44(4):35-39.
[16]李霞,樊治平,冯博.知识服务的概念、特征与模式[J].情报科学,2007(10):1584-1587.
[18]付露瑶,刘文云,沈亚婕,等.数字素养视角下高校图书馆知识服务体系与策略研究[J].图书馆,2023(1):58-64.
[19]郭雨梅,景勇,郭晓亮,等.开放科学形势下科技期刊知识服务平台运营模式探析[J].编辑学报,2023,35(3):273-278.
[20]魏大威,王菲,肖慧琛.Web 3.0背景下的智慧圖书馆知识服务研究[J].图书馆理论与实践,2023(1):54-60,76.
[21]梁艳琪.基于关联数据的文物数字资源语义融合与服务研究[D].
武汉:华中师范大学,2017.
作者简介:
江淑洁(1986),女,硕士,南阳师范学院图书馆馆员、南阳师范学院南阳发展战略研究院信息情报所所长。研究方向:数字图书馆、信息服务。
(收稿日期:2023-08-02 责任编辑:马玉娟)
Research on Knowledge Fusion and Services for
Multimodal Collection of Digital Resources
Jiang Shu-jie
Abstract:
The knowledge fusion of multimodal digital resources in library collections can improve the efficiency of resource utilization and broaden the scope of resource sharing. Based on the analysis of relevant concepts, this article analyzes the knowledge fusion process for multimodal collection of digital resources, and then draws inspiration from the associated data link fusion method to construct a knowledge fusion and service model for multimodal collection of digital resources from the digital resource layer, knowledge fusion layer, and knowledge service layer. It is believed that knowledge services for multimodal collection of digital resources include self-service knowledge navigation, scenario based knowledge recommendation, intelligent knowledge consulting and other services were provided, and a case study was conducted using multimodal cultural relic painting digital resources as an example.
Keywords:Multimodal Data; Collection Resources; Knowledge Fusion; Knowledge Service