吕叶欣 张娟
摘 要:[目的/意义]为满足用户多层次、多粒度的知识获取需求,图书馆文献资源组织的对象由文献单元逐步向知识单元转变。[方法/过程]文章在研究单元信息概念和表示模型的基础上,提出基于本体和关联数据的单元信息知识组织框架,并深入探讨了实现单元信息语义组织的核心步骤。以中医养生领域为例,阐述单元信息知识组织语义模型的应用过程。[结果/结论]本文构建的单元信息知识组织模式,是实现单元信息细粒度组织、语义化揭示以及多维度关联的有效途径。该研究可为特定领域单元信息的语义应用提供参考。
关键词:单元信息;本体;关联数据;知识组织
DOI:10.3969/j.issn.1008-0821.2019.05.006
〔中图分类号〕G254.6 〔文献标识码〕A 〔文章编号〕1008-0821(2019)05-0041-07
Abstract:[Purpose/Significance]For the purpose of users knowledge acquisition at multiple levels and multi granularity,the object of librarys literature resources organization has gradually shifted from a literature unit to a knowledge unit.[Method/Process]On the basis of researching unit information concept and representation model,this paper put forward a framework of unit information organization based on Ontology and Linked Data,and discusses in depth the core steps of realizing the semantic organization of unit information.Taking“Yang sheng”as an example,this paper presented the application process of the semantic model of unit information knowledge Organization.[Result/Conclusion]Unit information knowledge organization constructed in this paper was an effective way to implement fine-grained organization,semantic revelation and multi-dimensional correlation of unit information.This research can provide reference for the semantic application of unit information in other specific fields.
Key words:unit information;ontology;linked data;knowledge organization
随着信息技术和数字图书馆的发展,图书馆传统的以文献单元为基础的信息组织体系已经不能满足用户的知识性需求。深入到文献内部,实现细粒度的单元信息的組织与检索成为未来发展趋势。通过对文献中蕴含的单元信息进行分析抽取,并运用语义技术和方法,达到对知识单元语义层面的组织,形成基于文献的知识网络。在此基础上,实现具体的检索、自动分类、智能推理方面的应用。
目前,国内运用语义技术实现细粒度知识的组织方法已经取得了一些研究成果,如知识元表示、知识元抽取、知识元标引。单元信息的知识组织方法可以借鉴知识元的研究成果,如知识元与本体的结合成为一种重要的知识组织表达方式,被应用于各类知识库的构建。但在文献深度知识组织和开发实践中,目前较少引入关联数据的相关技术和方法。关联数据作为一种简化的语义网模型,可以实现不同领域、不同来源、不同系统间知识资源的关联,更好地实现知识之间的多维度关联与开放获取。本文将本体和关联数据引入单元信息的知识组织,通过对单元信息特征和专业领域的属性和语义关系进行描述和揭示,构建多维链接的文献知识网络。
1 单元信息及其知识组织框架
1.1 单元信息概念
知识单元作为知识组织的对象,目前学术界仍未形成统一认识。冯汝佳等[1]从粒度原理出发,对知识单元、知识元的概念做了界定。认为知识单元是任意粒度的用于知识组织的文献片断。而知识元作为一种表征知识点的细粒度资源,是知识组织中不可分割的最小控制单位,如数据、事实、结论、公式等。知识单元可以是一个或多个知识元的集合。
本文中的单元信息是指从文献中提取的独立、完整、有价值且不可拆分的内容片段。单元信息在粒度层级上与知识元的概念一致,都是不可拆分的最小独立单元。但在知识形态上又与知识单元相似,都是隐含在文献中的片段信息。单元信息的实质是一种细粒度的知识单元,是论述某一问题的观点、数据、方法等段落语句[2]。
1.2 单元信息本体表示
单元信息作为一种细粒度的知识单元,对其进行知识组织和检索其前提是要建立知识表示模型。目前细粒度知识资源的表示方法主要包括基于特征的线性知识表示方法和结构化的知识表示方法。单元信息的线性描述模型虽能揭示单元信息的属性特征,却不能揭示单元信息内在结构和语义关联。通过使用语义结构代替传统线性结构的知识表示模型,可以使用户更容易通过语义元数据(Semantic Metadata)进行高效检索和浏览。此外,数字环境下依靠人工添加元数据的方式难以提高搜索引擎的检索效率和准确率,而结构化和语义化的知识表示,能够帮助机器实现自动分类、聚类、数据挖掘及语义检索[3]。在借鉴已有的知识元本体模型以及文献本体模型的基础上,结合单元信息自身的特点,将单元信息结构表示为:UI=〈s,c,p〉三元组。其中s表示来源文献、c表示单元信息内容,p表示单元信息属性,其结构表示模型如图1所示:
来源文献包括图书、期刊、学位论文3个子类,与单元信息间是整体与部分关系。内容是单元信息的内容本身,用户可从中获取知识,其独立完整且粒度小,用户阅读后都能掌握某一主题的相关知识[4]。属性主要是单元信息的元数据项,包括唯一标示符(采用URI表示)、名称、主题、类型、格式和创建者。元数据项的提取除对单元信息特征进行描述和定位外,还能建立单元信息之间基于外部特征的显性关联关系,如责任者合作、关键词共现等。主题词是提取单元信息的重要内容特征,是单元信息内容的高度概括,其主要来源于领域本体中的概念表达,通过主题标注,生成一条或多条带有标注的主题句,能建立如上下位、等同、相关以及本体构建的丰富语义关联,挖掘知识间的隐性关联关系。类型则通过分析单元信息内容即主题句信息得到,类型的提取主要用于基于单元信息内容类型的聚类和浏览,包括方法、概念、事实、陈述和数值。单元信息的格式包括文本型、图片型和视频型,也可能是各种媒体类型交叉和融合的,比如文本中含有图片、视频的综合性多媒体单元信息。
1.3 单元信息知识组织总体框架
基于本体和关联数据的单元信息组织是对海量、异源、异构文献信息资源进行精确化抽取、细粒度揭示、深度序化和语义化组织的过程,其核心意义在于实现单元信息的语义关联。单元信息知识组织包括知识资源和知识组织体系内容建设[5]。知识资源包括单元信息、来源文献以及相关外部数据集。知识组织体系是对单元信息进行加工组织的方法体系,包括元数据、本体、关联数据等语义网核心技术。通过元数据描述、本体建模、关联数据组织模型构建等方法实现对单元信息的外部特征和内容特征的描述,知识属性和关系属性的揭示,语义表达单元信息关联组织的需求,构建多维文献知识网络,为基于语义关联的知识发现、查询浏览、本体可视化等知识服务和应用提供底层源数据的组织管理模型。
本文提出基于本体和关联数据的单元信息知识组织框架如图2所示,该框架为4层结构,从下至上分别为数据层、语义层(本体层)、关联层和应用层。各层功能相对独立,上层功能基于底层功能实现。
数据层是单元信息组织框架的基础,其中包括两大部分:本地数据源和外部数据集。本地信息源是指存储于本地的单元信息库,是以文献库为基础,根据相应的抽取规则人工或计算机自动抽取出的单元信息集合。外部数据集是最终与单元信息库进行链接的数据对象集合。
语义层(本体层)是实现单元信息组织的关键,原始信息缺乏明确的形式化定义,在分析单元信息资源特征、知识结构、内容特点基础上构建语义标注模型,继承、复用现有语义描述框架及本体基础构建与各类相关资源相契合的语义关联模型。其工作主要包括两部分内容:首先,采用owl语言基于本文搭建的语义标注模型对单元信息进行资源描述;其次,基于关联数据原则,采用HTTP URI标识所有资源,最大限度地复用已有本体或词汇表对单元信息相关资源进行规范描述;最后,将所有标注后的资源转换为统一的RDF格式,借助语义融合的关联模型把具有语义的RDF链接显性地揭示出来,形成语义元数据网络。
关联层是基于语义关联模型以及各种技术支撑工具,实现对单元信息关联数据的构建、关联与发布,并同时与网络开放的相关资源建立链接。依据语义关联模型转化的RDF数据集间生成了语义链接,从而真正实现单元信息之间以及单元信息与外部数据集间的语义关联,为上层提供一个统一的知识视图。
应用层是基于上述组织过程的最终应用实现。
2 单元信息知识组织语义模型构建
构建以单元信息为基础的多维文献知识网络,其核心步骤主要包括两个方面:一是在本体的指导下,对单元信息进行语义标注,将非结构化的单元信息转化为规范的知识表示,实现单元信息的语义关联,为上层资源提供语义检索;二是根据关联数据特点,通过对单元信息的特征及各类实体间的相互关系进行语义化、层次化、立体化的描述,建立单元信息与其他实体间的语义关联关系,并采用关联数据原则进行发布,实现以单元信息为核心的网状知识图谱。
2.1 单元信息本体标注模型构建
单元信息模型的形式化表示主要是基于XML和基于本体的方法[6]。基于本体的单元信息语义标注一般要基于某个领域。根据应用目标不同,可将本体在本研究中的应用分为单元信息表示本体和领域本体。单元信息表示本体提供了一种知识表示框架,以层次表达的方式规范描述单元信息的内容、出处、元数据等,实现了知识的形式化表示。领域本体提供了其所在领域知识的标准性描述,即领域知识的元数据或规范术语集,可在内容层面丰富领域资源的语义关联关系。采用两种本体相结合的方式为单元信息的语义标注提供系统的标注框架,能更好地促进隐性的知识挖掘。根据上述内容,单元信息本体标注模型构建主要包括3方面工作:单元信息表示本体设计、领域本体构建以及两者之间的关联表示。如图3所示:
图3 单元信息语义标注模型
上文已阐述了单元信息表示本体的构建方法。采用Protégé工具及本体描述语言owl建立领域本体,通过Jena[7]技术完成对领域本体的解析,从而实现计算机的访问、操作和语义推理。领域本体的建立应尽可能地重用已有知识资源来获取领域概念,如叙词表、分类表以及本体等。上述各本体构建后,单元信息描述本体使用对象属性has Subject实现从单元信息到领域本体的关联,领域本体使用对象属性has Resouce实现从概念到单元信息的关联,从而将单元信息实例中的主题词同领域本體中的概念实例关联起来,通过领域本体构建的丰富语义关联,利用推理机挖掘知识间的隐性关联。此模型的优点在于,替换任意单个本体不会对其他相关本体产生影响,是一种更为通用的单元信息标注模型,同时满足领域概念动态扩展的需求。经过本体标注和映射的单元信息链接成具有本体语义的知识网络,存储于知识库中,为实现知识推理和语义检索提供了基础。
2.2 单元信息语义关联模型构建
基于本体的语义标注虽可实现对单元信息资源的细粒度组织和语义标注,但不支持资源本身的开放获取,关联数据作为语义网中使用URI和RDF发布、分享、连接各类数据、信息和知识的最佳实践[8],能满足资源间广泛关联与开放的知识组织需求,帮助用户挖掘不同领域的知识资源,建立多维度的知识链接。关联数据采用RDF数据模型,RDF三元组的URI采用来源于各种规范词表及本体的URI来标识知识对象,从而实现跨领域资源实体的规范性描述,为实现不同领域、不同来源、不同系统间资源实体的链接奠定了基础,具有较高的可获取性[9]。
由于关联数据本身不具备语义功能,所以需要应用已有的成熟的词表或本体作为语义描述框架。单元信息语义关联模型是通过对各类实体的元数据项进行分析和抽象,找出语义关联性,定义类及类的属性,尽可能复用现有广泛使用的元数据或本体相关词汇对各类属性进行规范化描述(如DC、FOAF、SWRC),并对特定需求的属性进行扩展。属性包括表达概念之间关系的对象属性和表达概念特征的数据属性,通过对象属性与其他实体类进行外部关联,建立各类型资源间的语义关联。根据单元信息本体描述模型,本文主要抽取了单元信息(ui:UintInformation)、来源文献(ui:ResourceDocument)、学科人物(foaf:Person)3个核心实体类初步建成单元信息关联模型,属性和类间关系如表1所示:
为以上实体类及属性,添加如下关联条件:
单元信息类、来源文献类的属性主要复用DCMI的部分核心元素,通过互逆属性dcterms:hasPart和dcterms:isPartOf描述出来源文献与单元信息间的整体与部分关系,单元信息类、来源文献类通过对象属性dcterms:creator与人物类建立著者关联。
人物类重用foaf:Person、swrc:FacultyMember的部分核心词汇进行语义描述。通过扩展属性foafx:createUI和对象属性swrc:publication分别建立与单元信息类、来源文献类的作品关联,也可通过foaf:topic_interet描述著者的研究领域,与主题概念建立关联关系。
此外,将知识组织资源(如主题词表、术语表、分类法以及各领域叙词表)采用SKOS语义描述,其概念主题可通过dcterms:subject属性与单元信息、来源文献建立语义关联,将主题概念嵌入相关实例中,使各层次知识单元在主题层次上关联起来。同时,主题词表等通用词表可通过SKOS词表[10]中定义的skos:broadMatch、skos:closeMatch、skos:exactMatch、skos:mappingRealtion、skos:narrowMatch、skos:narrowMatch词汇链接实现与领域本体概念间的映射。
单元信息关联模型的构建思路实现了从粗粒度的来源文献到细粒度的单元信息,从二维知识组织层次到多维知识组织网络的演化,全方位展现信息资源体系的语义关系。类间语义关系如图4所示。
为单元信息关联模型的每个概念节点添加实例,利用定义好的类和属性来描述具体的资源对象,形成语义元数据的关联网络。通过文本、图片、
视频等形式,充分展现了单元信息与来源文献、领域概念、人物之间的语义互联关系。用户可利用RDF语义链接,快速查找、获取相关资源。
本文建立的单元信息语义关联模型是一种较为一般的模型,当选定某一具体领域时,可根据领域资源特点增加新的实体关系,构建语义化程度更高的关联模型。
3 单元信息知识组织语义模型应用实例——以中医养生领域为例
本文以中医养生领域为例,示例单元信息知识组织语义模型的应用过程,主要包括以下几个步骤:
第一步,根据单元信息鉴选原则[11]从权威出版社、核心期刊发表的中医养生领域文献中抽取单元信息。本文选取两段单元信息作为标注示例。
单元信息一:高血压是常见的心血管疾病危险因素之一,隶属于中医的“眩晕”范畴。其病因主要有情志不遂、饮食不节、体虚年高、跌仆外伤等[12]。
单元信息二:孙思邈《备急千金要方·风眩》首次提出“风眩”的病名及定义:“夫风眩之病,起于心气 不定,胸上蓄实,鼓有高风面热之所为也。痰热相感而动风,风心相乱则闷 瞀,故谓之风眩”。并提出风、热、痰致眩的观点[13]。
第二步,参考领域本体构建框架进行中医养生本体建模,规范中医养生领域中概念描述及关联关系[14]。
第三步,基于单元信息语义标注模型(如图3所示)对上文中抽取的道家养生理论单元信息进行语义标注;以上文确定的元数据标准对其来源文献、相关人员进行标准化描述,并在描述过程中建立内容对象之间的关联关系。使用URI引用机制对这些资源对象进行标识,如图5、图6所示。
图5、图 6以RDF三元组形式表达了单元信息内容本身、单元信息之间以及单元信息与来源文献、 领域专家、养生领域本体概念等外部资源的属性、属性值以及它们之间的逻辑关系。在实际应用中,采用RDF/XML序列化方式进行存储。
图5中“内容”实例是两段单元信息片段的内容本身,通过主题概念“饮食不节”与“高血压”之间的“导致”关系、“眩晕”与“高血压”之间的"对应"关系,语义揭示单元信息片断本身的逻辑关系。通过概念实例“高血压”与“风眩”之间的等同关系以及“风热痰”与高血压之间的“导致”关系建立起两段单元信息之间的语义关联。
图6中“内容”实例是高血压病因单元信息,与来源文献实例“中医养生来源文献”通过“dcterms:isPartof”建立整體与部分关系,通过“dcterms:subject”与中医养生本体概念实例(高血压、眩晕)相关联,与养生领域专家各个子类的实例通过“dcterms:creator”相关。用户在获取高血压病因单元信息的同时,不仅可以查找来源文献的相关信息,还可以查找到作者的其他研究成果以及擅长的领域,建立起与中医养生领域本体中定义的核心概念之间的关联。
第四步,通过语义关联模型(如图4所示),在各种软硬件工具的支撑下进行单元信息关联数据集的创建与发布,最终实现资源间的语义关联,为用户提供单元信息在线浏览与分类导航、本体可视化浏览与检索以及基于SPARQl的查询等语义应用服务。
参考文献
[1]冯儒佳,王忠义,王艳凤,等.科技论文的多粒度知识组织框架研究[J].情报科学,2016,(12):46-54.
[2]张娟,倪晓建.精准服务与单元信息组织探析[J].图书馆理论与实践,2017,(8):50-52.
[3]徐昊.科技知识对象的语义模式研究[D].长春:吉林大学,2013:1-109.
[4]许春漫.泛在知识环境下知识元的构建与检索[J].情报理论与实践,2014,(2):107-111.
[5]付苓.面向大数据的单元信息知识组织体系建设框架[J]情报理论与实践,2016,(6):96-98.
[6]付苓.基于本体网络概念化单元信息研究[J]情报杂志,2018,37(1):122-125.
[7]HP LABS.Jena-A Semantic Web Framework for Java[EB/OL].http://jena.sourceforge.net/index.html,2011-09-25.
[8]Bizer C,Heath T,Berners-Lee T.Linked Data-The Story So Far[J].International Journal on Semantic Web and Information System,2009,5(3):1-22.
[9]翟姗姗.基于关联数据的非物质文化遗产资源聚合研究[M]北京:科学出版社,2015.
[10]Bechhofer S,Miles A.SKOS Simple Knowledge Organization System Reference[EB/OL].http://www.w3.org/TR/skos-reference/,2014-05-26.
[11]倪晓建.问道书渊:图书馆工作偶拾[M].上海:上海科学技术出版社,2014.
[12]司亚雪.中医养生健康教育对高血压患者生活方式的影响[J].中国中医药现代远程教育,2011,(12):85-86.
[13]顾宁,陈红锦.高血压病中医特色疗法[M].北京:人民军医出版社,2012.
[14]中医养生本體[EB/OL].http://www.tcmkb.cn/ontologies/health/,2015-10-01.
(责任编辑:陈 媛)