李梦琳
摘 要:对科学论文资源实施有效的语义聚合,以提高信息检索的精度和效率、满足用户信息需求、提升知识服务水平,是语义出版与知识组织研究关注的前沿问题。针对目前科学论文检索难以满足用户需求的现状,本文指出了科学论文语义聚合的必要性,并在SemFus语义聚合框架的基础上,结合科学论文的内容结构特征,提出了涵盖整个检索流程的语义聚合模型。
关键词:科学论文 语义聚合 SemFus 知识服务
在科学内容创作与出版时,对其中的科学知识对象与知识关系进行鉴别和语义标注,在不同出版物之间进行知识点的链接与整合,支持语义化出版,成为未来科学出版的重要发展方向。随着网络信息技术的发展,全球范围的科学活动和科学交流日益频繁,科学论文作为科学传播的客体和交流的对象,数量规模呈现出飞速增长的态势,并且催生了多种类型的增强型文本,以助读者获取补充数据、拓展阅读、增强理解。然而,面对这些多源、异构、动态、富语义的海量论文资源,目前的资源检索系统还是不能满足用户日益复杂的信息需求,存在准确率低、粗粒度、资源关联度不够和无法很好提供可视化检索服务等缺点,致使检索结果和利用效率不尽如人意,影响资源的共建共享。归根结底,这是因为对于科学论文的检索还没有细化到“知识单元”的程度,计算机无法识别和理解论文深层次的语义内容,系统无法对不同数据库和论文中的各类型知识资源构建关于概念、实体等的知识关联网络。
一、概念说明及相关研究
SemFus框架是一个基于JDL模型构建的语义聚合框架,包含资源预处理、资源优化、情景优化、威胁评估和过程优化五个关键环节,描述了用户从输入检索命令到获得查询结果中间系统进行资源语义聚合的整个过程。同时,SemFus框架还引入了可以规范描述科学论文内容结构的本体和推理规则来克服JDL模型不能解决的资源语义异构问题。因此,本文基于SemFus框架,再结合科学论文特有的内容结构,尝试提出一个科学论文语义聚合模型,旨在揭示科学论文从语义描述、语义标引、语义关联和结果展示这一系列的语义聚合过程,挖掘资源间的内在规律和关联,促进资源间的语义互操性,为用户提供精准有效的知识服务。
(一)语义聚合内涵
“语义聚合”可译为“Semantic Aggregation”,与之相近的概念有语义融合、语义集成、语义整合等。目前学术界对“语义聚合”的概念還缺乏一致的界定,不少研究把“Aggregation”译成“融合”,把“集成”和“整合”翻译为“Integration”,其实这些概念都具有“将分散的资源聚集、连接在一起”的含义,其内涵并无本质差别,在实际应用中也几乎不会对其内涵加以区分。
“语义聚合”属于数字信息资源整合研究范畴,涵盖图书情报、地理信息系统、化学工程、计算机等各领域。肖希明总结目前数字资源整合方式主要有数据整合、信息整合和知识整合。数据整合是对异构资源系统中异质异类的数据在逻辑或物理上进行有机集中,信息整合则是在前者基础上对数据对象之间的关系进行有效组织和整合,知识整合则是对信息实体中的内在概念及概念之间的语义关系进行表征。此外,刘晓娟总结知识融合概念的发展经历了“数据融合——信息融合——知识融合”的过程。由此可见,知识融合是数据融合、信息融合的高级阶段。曹树金将语义聚合模式归为基于关系的聚合,旨在探索文本信息资源内容所包含的概念间或实体间的关系,从而通过语义关系网络实现文本、数据、服务等多类型资源的聚合。由此可见,语义聚合属于知识聚合层面,是从语义层面上来探讨异构资源概念、实体、引用之间的关联网络。
(二)国内外语义聚合研究
目前语义聚合的相关研究主要集中于体现本体的重要性。一部分研究利用本体技术来进行资源的语义识别。Kokar等提供了本体的类描述和属性描述,并用简单实例对其规范化进行了阐述,旨在将OWL本体运用在Barwise的情境理论中,实现用机器可处理的语义来描述情境。另一部分研究是探讨本体在异构信息源语义集成方面的应用。Gagnon提出一种基于本体的利用“局部—全局”本体映射的信息聚合方法来聚合异构数据资源。国内关于语义聚合的研究主要集中于馆藏数字资源的语义集合。何超和张玉峰分别从本体和Web链接挖掘技术这两个角度,从数据采集层、资源描述与挖掘层、语义聚合层、可视化展示层等方面构建了馆藏资源语义聚合与可视化模型。
(三)科学论文结构研究
目前,已普遍运用于描述文献结构的标签集标准有科技期刊文档标签集、图书交换标签集、文本编码协议等,主要是对文本的外在结构进行描述,用于内容的存储、转换、表示与分享。近年来,为了满足知识挖掘的需求,国内外学界提出了多种论文内容结构模型和出版本体,如文献构件本体、篇章元素本体等,旨在规范描述和表示论文内容的组成部分。由此可以反映出文献语义建模从外部结构逐步向内容语义发展的趋势。
二、基于JDL的SemFus框架
(一)SemFus框架的介绍及描述
JDL(Joint Directors of Laboratories)模型是美国军方实验室理事联席会下设的C3技术委员会成立的信息融合专家组提出的典型信息融合模型,是比较通用且应用最为广泛的功能模型。但随着情报获取及知识管理等新方法的提出,JDL模型已经难以满足实际需求。于是H.A.Noughabi等人从语义聚合流程的角度出发,基于JDL模型提出了语义聚合框架SemFus。SemFus框架较严格地遵循了JDL模型的框架,并在其基础上增加了对语义技术的使用。它首先对语义层级的定义进行了细化,然后引入了本体和语义推理规则进行语义表示和交互,以克服多种异构数据源中的语义问题。为简化操作流程,本体和推理规则都采用了资源描述框架(Resource Description Framework,RDF)作为描述语言。如图1所示为SemFus框架。
在Level 0资源预处理阶段,主要是对不同信息资源进行评估和预测,如对资源进行标准化处理、处理数据集的缺失值、过滤低质量信息等。在Level 1资源优化阶段,资源对象都用RDF进行描述,并通过RDFizer转换成统一的描述格式存储在RDF库里。每种资源都通过本体的定义描述出来,并由统一资源标识符(URI)予以标识。在Level 2情景优化阶段,基于实体的定义及其关系,在语义层面上提供关系的情境描述。这一阶段用于情景分析的资源除了来源于RDF库,还可以从众多外部的关联数据集中获取。在资源优化和情景优化过程中,每个数据源都用独立的本体加以描述;同时,为了使多源数据能够相互比较及合并,在本地本体之上还引入共享本体,以保证各数据源之间的语义一致性。在Level 3威胁评估阶段,使用语义推理机进行语义推理,原理是利用存储在规则库中的推理规则对前面流程处理过的信息进行推理,以明确可能存在的威胁、脆弱性、不足和机会。Level 4 过程优化阶段则负责监控系统的执行过程,根据特定的目标配置资源,以支持任务目标的完成。
(二)SemFus框架能更好地解决语义关联问题
JDL模型与SemFus框架都从系统视角来看待信息聚合,将两者进行对比,可以发现SemFus的优势在于它通过利用语义技术可以克服许多语义问题,使异构数据集成更高效。比如解决语义冲突问题、提供标准统一的描述规范、支持映射、语义推理、连接到关联开放数据等,这些都是JDL模型所不具备的特征。如表1所示。
三、基于SemFus构建科学论文语义聚合模型
由前文可知,SemFus框架在JDL模型的基础上丰富了语义聚合的过程,致力于实现各种资源间的语义互操作。但它属于通用型框架,只能描述资源语义聚合的宏观流程。若想专门针对科学论文资源进行语义聚合,还需对论文独有的语义结构特征来进行单独设计。
(一)科学论文的构成要素
李楠从外部特征和语义特征这两方面对学术文献出版模型进行了定义。外部特征主要指文献题录项(篇名、作者、机构、关键词、来源出版物等);语义特征则是指内容元素,包括陈述型(观点、假设、事实、结论等)和数据型元素(图片、表格、公式、基础数据、实验结果等)。
1.外部结构特征难以满足更精准的检索和利用需求
目前广泛运用于文本标注实践的结构化标准主要集中于各类数字内容标签集,故各学术期刊数据库资源的检索方式和相互关联主要是通过文献题录项来实现的。从用户层面来看,存在的问题是:检索精度不高,所得的结果通常是一整篇完整的论文,用户为了找到有价值的信息内容仍然需要消耗很多时间来进行选择和阅读,由此可见检索效率和利用效率都比较低。而随着大数据时代信息过载和信息孤岛现象的出现,用户对信息检索和信息利用的要求越来越高,因此继续深入研究科学论文的语义结构,对语义层面的知识单元进行细化和规范描述,实现机器可理解和异构资源间的语义聚合,是促进科学论文知识挖掘和知识发现的核心和关键。
2.识别和描述科学论文内容结构是实现语义聚合的基础
由已有研究和SemFus模型可知,本体构建是语义聚合的关键,而科学论文内容本体是科学论文内容结构的规范化知识表示,因此研究科学论文的内容结构是构建科学论文语义聚合模型的基础。
科学论文的内容结构颇为复杂,一般包括背景、动机、已有研究、研究方法、结果、讨论等内容组件。已被广泛认可的IMRD模型将论文主体部分划分成了引言(Introduction)、方法(Method)、结果(Result)和讨论(Discussion)四个组成部分。这一模型很普适,但划分粒度很粗。随后,越来越多针对这方面的研究,旨在基于相关理论和考虑不同学科特征,探寻粒度更细的科学论文内容结构。ABCDE模型认为文献包含注释(Annotation)、背景(Background)、贡献(Contribution)、讨论(Discussion)、实体(Entity)五个部分。SALT本体在ABCDE模型基础上定义了更细粒度的功能单元,包括摘要(Abstract)、动机(Motivation)、背景(Background)、讨论(Discussion)、结果(Conclusion)等。此外,修辞结构理论本体OntoReST基于修辞结构理论,定义了9种修辞关系,包括背景、对比、解释、证据、判断、动机、序列等。
在科学论文更细粒度的知识单元划分上,Zhang Lei基于IMRD模型,借助Swales体裁模型的语步分析以及Sperber和Wilson的关联理论,提出了功能单元(Functional Unit)的概念,并识别和归纳出了科学论文中的41个功能单元。比如引言部分的“研究缘起”“研究意义”“提出假设”等,方法部分的“论证方法”“概述实验程序”“陈述变量”等,结果部分的“陈述结果”“重述假设”等,讨论部分的 “解释结果”“表明结果局限性”“指出未来研究方向”等。功能单元的系列实证研究还得出,针对一项特定的信息使用任务,功能单元会与同一或不同组成部分的其他功能单元相关联,功能单元可以在不同程度上支持、促進阅读过程的每个阶段(导航、精读、理解、信息使用)。通过目的和功能来组织信息,利用好功能单元自身及其与信息使用任务之间的关联,可以有效地降低文献检索时间、提高文献检索准确度、提高阅读效果和效率。
因此,深入科学论文的内容结构进行知识单元的语义化描述和处理,能为数字文献资源提供新的知识组织方法,促使知识的处理方式从资源层面上升到认知层面、从单纯的语法处理转变为复杂的语义处理,顺应语义网和语义出版的发展趋势。
3.多模态数据型内容元素有助于实现语义增强
随着语义网技术和出版形态的发展,论文形式愈加丰富,逐渐出现了图表摘要、结构化摘要、视频摘要、可交互图表、可交互式地图、实验数据集等具有内容增强作用的新型文献模块,使得已有研究得出的本体和模型略显捉襟见肘。如Elsevier于2009年实施的Article of the Future项目,采用三栏式的用户界面设计,通过集成的3D数据可视化工具、提供与文献相关的实验数据集等多种方式实现了外部特定领域数据库与科学文献的互联。再如JoVE出版社于2006年创办的JoVE实验视频期刊,是全球首例实验视频期刊,致力于以视频方式展现医学、化学、物理学等学科领域的研究过程与成果。这些新型的文献模块都体现了文献语义增强的趋势,同时突出体现了读者对于检索精度和效度日益增长的需求。因此,在研究科学论文语义聚合的过程中,不仅要继承传统科学论文的内容结构,还要兼顾到这些新型的内容元素,以实现多模态数据型知识单元的关联和融合。
综上分析可得,科学论文主要由文献题录项、内容结构和多模态数据型内容元素三部分组成。要对科学论文资源进行语义聚合,就需要根据这三方面不同的元素特征来构建或引用相应的本体进行规范化描述,以实现语义一致性和共享性。
(二)基于SemFus的科学论文语义聚合模型
SemFus框架是从聚合流程角度出发构建的一个通用型语义框架。从用户输入检索命令开始,数据资源进行筛选过滤等预处理,通过RDFizer进行一致性转换,处理各资源间的关系并实现关系的聚合,最后再通过SWOT分析来决定提供给用户的结果。本文拟参考SemFus的基本流程,尝试结合科学论文语义结构特征来构建科学论文语义聚合模型,如图2所示。
1.科学论文资源采集
首先在預处理阶段,集成多种智能化、自动化的采集方法和技术对科学论文资源进行大规模采集,能为其语义聚合和检索结果的可视化呈现提供数据基础。科学论文资源主要包括期刊论文、学位论文、会议论文及一些行业知识库、特色资源库里的文献等。
2.科学论文资源的描述、标引与转换
目标优化过程主要是对科学论文资源进行统一描述和转换。具体来说,是将来源于不同数据库、不同网站的分布式异质异构论文资源按照统一的标准规范进行原始资源的描述和组织,抽取、加工、处理和创建标准的元数据,通过规范统一的元数据管理和适当的语言描述科学论文资源。在描述过程中,需要通过向非结构化和结构化数据源添加机器能够自动理解的结构和语义标注信息来表达科学论文内部的逻辑结构和深层语义内涵,实现异构数据源的统一表达和组织。以上目标可以通过RDF(资源描述框架)和本体语言等技术得以实现。
3.科学论文资源语义聚合
在情景优化阶段,主要实现的是科学论文知识单元之间关系的聚合。这是整个模型的核心模块,其主要功能是利用RDF或本体,增强论文资源的语义表达能力。前文总结的科学论文的文献题录项、科学论文内容结构和多模态数据型内容元素三部分内容在经过资源描述、标引和转换之后,虽然各自内部已被统一描述,但相互之间却还是因资源结构、性质不一样而不能很好地互联互通。利用本体技术建立映射规则,可以很好地解决局部本体与局部本体之间、局部本体与全局本体之间存在的概念、关系、实例等各种语义冲突问题,将异质异构数据源聚合到统一的语义视图中,实现语义层面的资源聚合与共建共享。
4.论文资源聚合结果可视化展示
最后的威胁评估阶段主要是系统依靠语义推理机制来评估由前面阶段得到的聚合结果的优劣、机会和风险,最终利用关联开放数据(LOD)在人机交互界面上发布系统得到的最合理结果。可视化展示模块的主要功能和作用是利用现有的可视化模型和工具将非空间数据的聚合结果转换为视觉形式进行输出,展现海量论文资源之间的错综复杂关系和深层次内涵,从而帮助用户加深对聚合结果的认知和理解。在这里,关联数据的语义化和关联化的链接机制,能够为语义出版提供一种更为灵活的数据发布及共享方式,实现外部知识库链接、文献知识单元语义聚合等更高层次的语义出版需求。
四、思考与总结
语义聚合是关系的聚合,关联是知识组织的核心,实现关联是为了更好地组织信息和利用信息,促进知识发现。科学论文作为科学交流活动重要的知识载体,其价值体现于文献中蕴含的丰富知识单元。细化科学论文的知识单元和语义结构,通过聚合流程进行转换和关联,可以有效地实现科学论文资源自动化、智能化的深度聚合与动态展示,提高论文资源的利用水平和用户检索效率。因此,本文基于一个通用型语义聚合框架SemFus,同时结合科学论文的语义特征,提出了科学论文语义聚合模型。
但是就目前的实际来看,针对科学论文资源的本体构建工作耗时耗力,尚无通用的、完善的本体可以使用,导致资源难以实现统一的描述和处理。另一方面,关于科学论文论述过程中的逻辑组件特征都是通过人工进行识别,暂时还不能解决内容元素自动分类和标引的问题,而自动化和智能化是在机器上实现语义聚合的先决条件。这都是未来要继续研究和致力于实现的目标。
参考文献:
1.肖希明,唐义.国外多领域数字资源整合研究进展[J].中国图书馆学报, 2013(4):26-35.
2.刘晓娟,李广建,化柏林.知识融合:概念辨析与界说[J].图书情报工作, 2016(13).
3.曹树金,马翠嫦.信息聚合概念的构成与聚合模式研究[J].中国图书馆学报, 2016(3):4-19.
4.何超,张玉峰.基于Web链接挖掘的馆藏资源语义聚合与可视化展示研究[J]. 情报科学,2015(2):115-120.
5.李楠,孙济庆,马卓.面向学术文献的语义出版技术研究[J].出版科学,2015(6):85-92.
6.Behkamal, Behshid. SemFus: Semantic fusion framework based on JDL[J]. Journal of Convergence, 2012, 152.
7.Zhang L, Kopak R, Freund L, et al. A taxonomy of functional units for information use of scholarly journal articles[J]. Proceedings of the American Society for Information Science & Technology, 2010, 47(1):1-10.
8.Kokar M M, Matheusb C J, Baclawskic K. Ontology-based situation awareness[J]. Information Fusion, 2009, 10(1):83-98.
9.Gagnon M. Ontology-based integration of data sources[C]// International Conference on Information Fusion. 2007:1-8.
(作者单位系武汉大学信息管理学院)