基于本体的声像档案知识图谱构建研究

2022-11-25 12:01:25佟淑玲王越文李泽坤
档案管理 2022年6期
关键词:声像档案知识图谱本体

佟淑玲 王越文 李泽坤

摘  要:声像档案利用呈现出扁平化、粗粒度等特征,同时档案保管机构无法实现声像档案同其他载体信息的深度关联,机构间缺乏互联互通,难以满足用户日益增长的多元化需求。对此笔者结合声像档案特征,利用七步法对声像档案本体概念进行归纳总结,借助protégé软件建成本体模型,随后按照本体模型对于数据的要求,爬取数据,并通过知识抽取等操作完成数据的处理,最后将注入实例数据的本体模型导入至Neo4j中,形成图谱,以期为今后的研究提供借鉴。

关键词:声像档案;知识图谱;本体;邓小平

Abstract: The utilization of audio-visual archives presents the characteristics of flattening and coarse granularity. At the same time, the archives depository cannot realize the deep association between audio-visual archives and other carrier information. The lack of interconnection between institutions makes it difficult to meet the growing diversified needs of users. In this regard, the author combines the characteristics of audio-visual archives, summarizes the ontology concept of audio-visual archives by seven steps, builds up the ontology model with the help of protégé software, crawls the data according to the requirements of the ontology model for data, and completes the data processing through knowledge extraction and other operations. Finally, the ontology model injected with the case data is imported into Neo4j to form a map, which is expected to provide reference for future research.

Keywords: Audio-visual archives; Knowledge atlas; Ontology; Deng Xiaoping

隨着数字人文理论的发展,将数字技术同人文理念相结合已经成为诸多学者优化传统信息资源管理与利用的新晋选择,其中知识图谱因具有良好的共享性与多维性,能够在本体技术的基础上揭示不同载体档案之间的潜在关联,为各机构对于声像档案的知识化利用提供框架,打破机构间藩篱,帮助利用者挖掘声像档案核心内涵,为进一步共享利用赋能。

为解决各机构之间缺乏统一的声像档案知识化共享利用框架的问题,借助本体技术对多模态、粗粒度的声像档案进行内容动态重组与颗粒化解构,并在此基础上构建领域知识图谱,不但具有较强的现实意义,而且也符合数字人文背景下档案事业发展的核心内涵。

1 研究现状

在理论层面,目前国内对于声像档案的研究大多数仍停留在管理层面,致力于从宏观角度设计制定相关制度,以推动声像档案的规范化建设。[1]李美芳等提出应当营造声像档案共建共享共赢新生态,构建“接收+征集+拍摄”新常态。[2]胡悦意提出开发声像档案统筹平台,利用网络实现声像档案资源聚合,提升声像档案管理水平。[3]

与此同时,也有学者着眼于声像档案的数字化加工整理,强调“模转数”与原生电子声像档案管护的必要性。龙芊良认为各高校在数字化声像档案的过程中应当按照“重点突出、分批选择”的数字化原则,设定严格的办公流程,并建设多元人才梯队。[4]王伟提出要从制度、渠道、利用、人才队伍建设等四方面优化数字化流程,合理挖掘声像档案资源价值。[5]与此相对应的,仅有少量学者关注声像档案的知识化开发与利用,[6-7]大部分学者的研究视角仍聚焦在声像档案的数字化与数据化层面,缺少知识化处理利用方面的研究,导致声像档案在缺乏完整语境的情况下,只能重现某一时间段的历史,用户无法借助其回顾历史的全貌。[8]同时,由于声像档案非结构化的特征以及资源描述体系的不健全,[9]使得国内对于声像档案知识化方面的研究存在滞后性,大部分研究仅停留在宏观层面,未能打通“数字化—数据化—知识化”路径,后续知识化工作进展缓慢,尚未出现以声像档案为本体的知识图谱构建研究。

因此本文参照斯坦福医学院七步法,利用Protégé工具构建本体模型,聚焦声像档案间隐含的知识链,在构建模式层与数据层的基础上,注入相关实例数据,并通过Neo4j图数据库完成知识图谱的存储与可视化,借以实现声像档案资源的深度关联聚合,加强数据的共享与利用。

2 声像档案知识图谱整体架构及研究流程设计

考虑到应确保声像档案知识图谱的逻辑性与系统性,需要在把握声像档案特性的同时,将知识图谱构建理论同实践相结合,分层设计整体架构,并以此为依据梳理图谱构建流程,明确各环节工作步骤,为构建基于本体的声像档案知识图谱提供指导牵引。

2.1 声像档案知识图谱整体架构

声像档案知识图谱的构建以逻辑规则为核心,在抓取的结构化、半结构化、非结构化数据的基础上,借助本体框架约束知识的提取、加工、融合,最终实现知识层面的应用。因此,笔者按照分层理论,将声像档案知识图谱整体架构划分为源数据层、逻辑层与应用层,如图1所示。

首先是源数据层。声像档案来源广泛,种类繁多,囊括了大量的结构化数据、半结构化数据、非结构化数据,其中以非结构化数据为主。这就导致绝大部分声像档案资源的知识加工程度较低,无法直接用于知识图谱构建,需要经过逻辑层处理后,才能分类聚合多源异构数据,实现知识组织。

其次是逻辑层。知识图谱依照逻辑可分为模式层与数据层。其中模式层作为知识图谱的核心,是在既有逻辑规则的约束下,框定实体范围,梳理其间关系,并在此基础上构建实例模型。而数据层则是依照模式层的要求,将从数据中抽取的实体、关系、属性进行融合清洗,对齐实体与关系,细化数据粒度,最终以关联数据的形式存储至图数据库中,完成数据到知识的转换,实现模式层的实例化与图谱的可视化。

最后是应用层。可视化后的知识图谱能够突破声像档案原始载体对于内容的束缚,深化多源异构数据之间的语义链接,将记载同一事件的不同载体、不同模态的声像档案数据进行关联,形成多维度语义网络,实现聚类分析与档案内容之间的互补,使用户无须翻阅大量档案便可以了解历史事件的全貌。同时以图数据库为平台,依靠人工智能技术,在专家标注的基础上,通过深度学习实现智能检索与问答,提高声像档案资源知识化程度。借鉴文书档案领域的相关研究,声像档案知识图谱的应用层在实际操作中可以表现为以事件或人物关系为主的知识发现、以图片、视频为主要对象的智能检索和面向人机交互的知识问答系统。

2.2 研究流程设计。根据声像档案知识图谱整体架构可知,实现从数据到知识的转变需要满足两点要求。第一点,应当符合主题范围,即在明确主题范围的前提下,查阅百度百科、OpenKG等知识库,借助爬虫程序尽可能网罗相关网站信息、图片和视频数据等半结构化、非结构化数据,构建起支撑图谱运行的数据湖。第二点,遵循图谱规则的约束。搜集来的海量数据经过抽取后可分为实体、关系、属性,在本体规则的制约下,不同元素可以相互组合形成<实体,关系,实体>或者<实体,属性,属性值>,例如<人物,亲属,人物>,并注入相关数据完成实例,例如<邓小平,亲属,邓榕>。本体模型作为构建知识图谱需求的体现,发挥着规则制约与明确主题的作用,因此,笔者以构建本体模型为牵引,按照数据获取、知识抽取、知识融合等流程构建声像档案知识图谱。即首先按照“七步法”构建声像档案知识图谱的模式层;其次以模式层为基准,通过数据获取、知识抽取、知识融合等流程完成数据层的组织重构;最后将注入实例数据的本体模型映射至Neo4j图数据库中,实现知识存储与图谱可视化,如图2所示。

3 声像档案知识图谱构建与可视化

3.1 本体模型构建。本体模型的合理性直接影响到知识图谱的科学性,为此本文以《录音录像类电子档案元数据方案》《照片类电子档案元数据方案》《数码照片归档与管理规范》等行业标准为依据,从声像档案内容与形式特征入手,着眼于声像档案跨机构、跨模态共享利用,按照七步法利用protégé拟定了声像档案本体模型。

①确立本体范围。本文是以声像档案知识图谱构建为研究主题,其主要目的就是在遵循声像档案内容与形式特征的基础上,利用本体技术建模,针对声像档案内容制定一系列的语义规则,界定实体、关系、属性的范围,构建面向声像档案的领域知识图谱,實现声像档案跨机构、跨模态的共享利用,从而深耕档案内容,挖掘潜在的知识关联。对此,需要参照《录音录像类电子档案元数据方案》《照片类电子档案元数据方案》等行业标准,确定声像档案为主要研究对象,借以开展下一环节的研究。

②查找可复用本体。复用本体能够有效提升不同本体模型的语义关联程度,解决因标准不同或类名不统一造成的歧义、共享效率低下等问题,符合可扩展性的本体构建原则,[10]这对于加强机构之间互联互通、提高本体模型构建效率具有重要作用。通过相关材料查询本体模型中可能涉及的类或者属性,利用protégé中的copy模块,复用Time Ontology中的Temporal entity及其子类等,提高本体共享效率。复用的Time本体主要包含时间段与时间点,能够完整还原事件发展的时间线,增强图谱的历时性与共时性展示能力,提升叙事维度,有利于解决声像档案扁平化管理与利用的问题。

③列举声像档案本体重要元素。本体模型中主要包括实体、关系、属性三类元素,其中关系可以表述为对象属性,属性可以表述为数据属性。通过对于相关行业标准的研究,结合声像档案本身特征与叙事要素,暂确定声像档案本体模型共包括时间、地点、档案等七大类,参与、摄录、生平年月等25个对象属性,名称、档号等23个数据属性,后续会根据需求对其进行增删改减。

④定义声像档案本体分类体系。为精细知识粒度,实现知识分类,确保数据聚合的逻辑性,笔者从已经列举出的7个大类出发,向下延伸,丰富分支体系。依据行业标准,构建分类体系,在默认“owl:Thing”类下设置“事件”“人物”“地点”“时间”“声像档案”“设备”“机构”7个一级类,其中事件按照主体可以分为“国家政治活动”“国家经济活动”“国家文化活动”“国家军事活动”“私人休闲活动”;“人物”按照职责分工可以分为“参与者”“摄录者”“数字化者”;“时间”复用Time Ontology中的Temporal entity及其子类;“声像档案”按照记录形式可以划分为“照片档案”“录音档案”“录像档案”;“设备”按照作用可以分为“摄录设备”与“数字化设备”;“机构”按照承担的任务可以分为“保管机构”“摄录机构”“数字化机构”,例如表1所示。该分类体系的意义主要在于能够按照叙事原则将声像档案所记录的历史事件完整还原,同时遵循档案生命周期理论,将参与其中的关键人与机构进行罗列,明确权责关系。

⑤定义声像档案本体属性及关系。梳理已经列举出的本体元素,根据声像档案知识图谱构建的实际需求对其进行增删改减,定义对象属性与数据属性,合理确定适用范围,确保实例数据能够按照要求准确嵌入模型中,保证模型的合理有序运行。经过整理,现有对象属性17个,分别是“使用、保管、参与、发生地点、发生时间、上下级、亲属、同事、同学、战友、摄录、数字化、数字化时间、生平年月、生成、记录、隶属”。数据属性19个,分别是“题名、保管期限、档号、密级、分辨率、是否数字化、原始载体类型、视频码率、音频码率、声道、信息源、名称、国家、姓名、字、性别、职位、设备型号、生产厂商”。

⑥定义声像档案本体约束条件。该环节主要是在前两个环节的基础上,根据本体分类体系对已确定的对象属性以及数据属性的定义域与值域进行限制,明确陈述的主体与客体。[11]对象属性方面,根据机构在声像档案生命周期过程中所肩负的职责,将“保管”的定义域设为“保管机构”,值域设为“声像档案”,转换成RDF三元组表示为“保管机构、保管、声像档案”,其中保管机构是保管的主体,声像档案作为客体。同理,余下对象属性的定义域与值域如图所示。数据属性方面,按照《录音录像类电子档案元数据方案》《照片类电子档案元数据方案》等行业标准,设置本体数据属性,规范声像档案本体描述内容,增加用户对于档案内容的理解,与对象属性不同的是,数据属性的值域并不是哪一类实体,而是需要规定数据类型,代表的是实体与数据类型之间的关系,详情如表2与表3所示。

⑦建立声像档案本体。根据拟制的声像档案本体分类体系,利用protégé工具,将设定好的对象属性与数据属性依次填入,建立链接关系,生成声像档案本体模型,如图3所示。

3.2 数据获取。在获取声像档案数据之前,首先需要确认数据获取的主题,通过调研发现由于目前国内暂时缺少专业性的声像档案知识库,大多数声像档案数据只能通过网页搜索、进馆查询的方式进行查找,获取的数据往往是半结构化或非结构化的数据,缺少系统性,很少出现某一专题相关的声像档案资源合集,因此结合多方面考虑,笔者以中央档案馆与中国共产党新闻网联合推出的“档案天天看——邓小平档案系列”为基础,利用爬虫程序从互联网中抓取了与邓小平有关的声像档案资源。同时,购入《邓小平》等较为权威的人物生平画册,不仅能够为后续的人工纠正提供可靠的参考文献,也可以充当实验数据,增强知识图谱的可靠性。经过预处理共摘选出160张照片档案,5份录音档案,13份录像档案,其内容涵盖了红军陕北会师、中共七届二中全会、十一届三中全会等重要事件,涉及的人物范围广、时间跨度大、内容丰富,对于研究我党历史具有重要的历史人文价值。

3.3 知识抽取。知识抽取是指对来源不同、结构不同的数据进行处理,抽取项目中所需要的信息形成知识,并按一定的格式将其进行存储。[12]鉴于实例分割、人脸识别、声纹识别技术在声像档案资源开发中的应用尚处于起步阶段,因此本文以我馆开发的基于人工智能的多媒体云平台为主,以人工修正为辅,根据前文所构建的声像档案本体模型的信息需求,对搜集来的数据进行实体识别、属性抽取、关系抽取。在本研究中,声像档案的实体识别主要依靠实例分割、人脸识别与声纹识别技术,通过实例分割与人脸识别可以将识别到的人或物与事先准备好的知识库进行匹配,再辅以人工纠正,如此循环迭代,避免出现主要人物识别遗漏现象,如图4、图5所示。声纹识别则需要根据音频特征识别讲话人物,通过与文本识别相结合的方式提取出讲话中涉及的主要人物、事件等元素,如图6所示。属性抽取与关系抽取则主要依靠知识库映射等方式,在人物识别的基础上,同知识库已有的属性与关系相匹配,同时利用百科知识库等结构化数据,不断补充相关属性与关系,完善图谱知识网络。最终将知识抽取的结果导出,并按照本体模型的分类体系以及数据、对象属性排列存储在xlsx表格中,为下一步的知識融合做准备。

3.4 知识融合。知识融合是指将知识抽取完毕后的结果,通过实体链接、关系对齐等方式消除歧义,统一语义关系,减少因表述不一致而造成的语义混乱,提高知识图谱的科学性与准确性。在知识抽取的过程中,虽然通过人为干涉的方式,最大程度地避免了遗漏,但是在处理录音档案时,很容易出现一个人有多种称谓的现象,例如,毛泽东会被尊称为毛主席等;同时还需要根据上下文环境,对一些以职位为代称的情况进行综合考虑,这就需要利用知识融合技术,使不同称谓与库中实体对齐链接,规范语义表述。除此之外,在提取网页中对于声像档案的描述文本时也同样会出现人物名称不一致以及时间描述冲突等问题。例如图7,贺龙纪念馆网标注该照片档案拍摄时间为1948年9月,而中央档案馆对其时间标注为1949年3月,综合天气、服饰以及邓小平生平与贺龙生平等线索,确定该照片档案拍摄时间为1949年3月。针对类似的情况,不仅需要知识融合技术,还需要利用相关知识予以人工介入。最后仍需要将知识融合后的数据存储至xlsx表格中,以满足大批量数据导入到protégé软件的需求。

3.5 知识存储与可视化。本环节中,需要将经过知识融合后的数据注入本体模型之中。利用Cellfie插件,在选择好对应的类别后,就可以将数据从xlsx表格导入至protégé,生成搭载有声像档案本体模型的OWL文件,完成数据的实例化操作。然而protégé所产生的OWL文件并不能直接存储至neo4j图数据库中,仍需要进一步转换。借助jar包rdf2rdf,在Java 1.8.0_290环境下,运行“java -jar rdf2rdf-1.0.1-2.3.1.jar 声像档案本体模型.owl 声像档案本体模型.turtle”CMD命令,实现owl文件向RDF文件的转换。鉴于Java环境版本较低,开启3.5.5版本的Neo4j数据库,植入Neosemantics插件,并输入“CREATE INDEX ON:Resource(uri)”命令创建索引,随后输入“CALL semantics.importRDF('file:///D:/声像档案本体模型.turtle','RDF/XML',{})”命令完成数据的导入与存储。经过一系列调整,最终形成可视化的声像档案知识图谱,如图8所示。在Neo4j数据库中可以使用Cypher语言进行检索,其检索速度快、操作简便,但需要注意的是不同版本的Neo4j数据库所使用的Cypher语法略有不同,在使用中应细加辨别。

在应用层面,通过对于图谱的分析,我们可以清晰地了解到人物与事件、地点、时间之间的关系,结合已知的上下文信息,逐步推敲出与其有关的历史活动脉络,还原历史本真。倘若在上下文信息未知的情况下,我们依旧可以利用Cypher语句,在检索相关元组的基础上,将不同声像档案的内容联系到一起,按时间维度进行排列,梳理历史活动的起因经过结果,从而达到了解历史原貌的目的。

4 结语

本文结合声像档案特征,在参考相关标准的前提下,利用七步法对声像档案本体概念进行归纳总结,借助protégé软件建成声像档案本体模型,随后按照本体模型对于数据的要求,利用爬虫程序爬取实验数据,并通过知识抽取、知识融合完成对于数据的处理,最后将注入实例数据的本体模型导入至Neo4j中,完成知识存储与可视化。笔者希望能够通过本研究的相关内容为今后关于声像档案知识化的研究提供思路,打破扁平化、粗粒度利用声像档案的困局,建立各机构之间的共享交流机制,实现声像档案跨模态、跨机构的开发利用。在未来的研究中,笔者会不断增加实例化数据的体量,并根据实际情况完善本体模型,进而增强声像档案知识图谱的适用性与科学性。

参考文献:

[1]陈兆祦,和宝荣,王英玮.档案管理学基础.第3版[M].中国人民大学出版社,2005.

[2]李美芳 ,王彩虹 ,李顺发.声像档案资料管理模式创新与实践——以广州市国家档案馆为例[J].中国档案,2022(01):40-41.

[3]胡悦意.基于新媒体环境下医院声像档案的管理与利用[J].黑龙江档案,2021(06):168-169.

[4]龍芊良.高校声像档案数字化建设的问题与思考——以北京大学为例[J].北京档案,2020(12):38-40.

[5]王伟.声像档案数字化管理的机制、思路与对策[J].城建档案,2020(03):20-21.[6]邓君,王阮.口述历史档案资源知识图谱与多维知识发现研究[J/OL].图书情报工作:1-13[2022-06-18].DOI:10.13266/j.issn.0252-3116.2022.07.001.

[7]赵雪芹,路鑫雯,李天娥,陈瑞.领域知识图谱在非遗档案资源知识组织中的应用探索[J].档案学通讯,2021(03):55-62.DOI:10.16113/j.cnki.daxtx.2021.03.008.

[8]曾静怡.上下文在照片档案叙事中的应用[J].档案学研究,2021(06):100-105.DOI:10.16065/j.cnki.issn1002-1620.2021.06.015.

[9]吕元智,谷俊.面向用户需求的视频档案资源描述框架构建研究[J].档案学研究,2021(06):91-99.DOI:10.16065/j.cnki.issn1002-1620.2021.06.014.

[10]高大伟,韩瑞雪.城建档案领域知识图谱构建方法研究[J].档案管理,2022(03):57-58+62.DOI:10.15950/j.cnki.1005-9458.2022.03.012.

[11]宋雪雁,张伟民,张祥青.基于档案文献的清代祭祀礼器知识图谱构建研究[J].图书情报工作,2022,66(03):140-151.DOI:10.13266/j.issn.0252-3116.2022.03.015.

[12]张云中,郭冬,王亚鸽,孙平.基于知识图谱的红色历史人物知识问答服务框架研究[J].图书情报工作,2021,65(16):108-117.DOI:10.13266/j.issn.0252-3116.2021.16.012.

(作者单位:解放军档案馆 来稿日期:2022-08-12)

猜你喜欢
声像档案知识图谱本体
Abstracts and Key Words
哲学分析(2023年4期)2023-12-21 05:30:27
对姜夔自度曲音乐本体的现代解读
中国音乐学(2020年4期)2020-12-25 02:58:06
浅谈企业声像档案管理的现状及建议
青春岁月(2016年22期)2016-12-23 16:03:49
近十五年我国小学英语教学研究的热点、问题及对策
基于知识图谱的产业集群创新绩效可视化分析
智富时代(2016年12期)2016-12-01 16:28:41
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
浅析水利工程建设中的声像档案管理
企业声像档案数字化管理的实现探讨
科技视界(2016年17期)2016-07-15 09:14:22
信息化环境下企业声像档案文化价值的挖掘
科技视界(2016年16期)2016-06-29 00:16:18