数字人文数据基础设施建设中机构本体的构建:研究和应用*

2020-04-24 10:18金家琴夏翠娟
图书馆论坛 2020年4期
关键词:机构人员

金家琴,夏翠娟

0 引言

“本体(Ontology)是对概念体系的明确的、形式化、可共享的规范说明”,“本体是领域知识规范的抽象和描述,表达、共享、重用知识的方法”。本体构建的目的是领域知识的共享和重用,标准化和形式化的领域本体,能够为信息系统之间的高层互操作提供很好的工具[1]。近年来,在跨领域知识共享和重用的需求推动下,本体成为语义网环境下知识组织和数据语义化表达的关键技术,被广泛应用于关联数据(Linked Data)和知识图谱(Knowledge Graph)技术中,以实现互联网环境下领域知识的语义互操作。

机构(Organization)在管理学中被定义为“由若干个人或群体所组成的、有共同目标和一定边界的社会实体”。在关联数据和知识图谱中,机构被作为一种命名实体(Name Entity),为每一个机构赋予URI,用机器可理解的形式化语言来表示机构的各种特性和与人、地、时、事等其他命名实体之间的关系,在数字人文数据基础设施构建中有着重要的作用。因而,设计一套灵活可扩展的机构本体模型和词表是不可回避的问题。机构的名称、人员、所在地、层级关系和历史沿革、变迁等属性特征以及各机构实体间的相互关系等,包含着复杂的语义信息。在关系数据库模型中,实体和实体间的各种联系均用二维表表示,一个关系就是一个二维表,这种单一的数据结构在存取数据时效率非常高,但同时也丢失了大量的语义信息,无法实现数据的语义化表达。而本体作为一种共享概念模型的明确的形式化描述,为信息提供了语义表示机制。

1 研究现状和研究意义

1.1 国内外机构本体研究现状

国内机构本体方面的研究和实践有限,构建主体集中于科研机构。理论研究多与机构规范档以及描述元数据相关,实践研究多是探索如何利用本体技术构建本机构本体知识库和信息检索系统。胡雪环对科研机构的属性及内外部层级结构等信息进行分析、定义与描述,基于此构建科研机构本体推理规则[2]。冯微峰构建图情机构功能本体,基于OWL(Web Ontology Language)形式化后具有逻辑推理的功能[3]。吕翔分析国防工业机构主要组织框架的层级结构,介绍了如何通过复用现有本体构建国防工业机构与产品领域本体的整体流程[4]。以上研究与实践多面向特定需要,但对于如何构建一套通用的、可扩展、可复用的机构本体模型,尚未形成完整的本体词表和系统性的构建方法。

国外以机构为核心描述对象的本体研究在2000 年左右发展起来,但多数机构本体的构建是依据具体的实践项目需求,面向应用场景而开发,机构信息多是政府数据或企业信息集成数据[2]。例如,TOVE(Toronto Virtual Enterprise)是一个适合企业建模的集成本体框架的项目,TOVE本体描述了企业结构的基本元素:组织结构、活动、角色、目标、团队、权利和义务等信息,通过授权将机构与行为联系起来[5]。以W3C核心机构本体(Core Organization Ontology)为代表的通用机构本体的研究起步较晚。2009年5月,美国政府数据网站data.gov 上线,各国政府纷纷加入“政府开放数据”运动,万维网上各种各样的数据集越来越多。英国政府关联数据工作组(Government Linked Data(GLD)Working Group)(现已关闭)发现本体为不同的政府机构的信息关联数据发布提供了很好的解决方案,联合英国的Epimorphics公司开发了一个通用的、可重用的核心机构本体。该本体不提供组织类型、组织目的或角色的类别结构,仅提供允许扩展添加所需的特定子类结构或分类方案所需的核心基础概念[6]。之后W3C在此基础上作了多次修改和完善,正式发布推荐标准“核心机构本体ORG”,命名空间为http://www.w3.org/ns/org#。此外,很多数据框架和通用本体也为“机构”专门定义了可复用的术语。比如,Schema:Organization 是学校、NGO组织、公司和教育机构等各类型常用机构的信息词表(rdfs:comment“Anorganization such as a school,NGO,corporation,club,etc.”@en)[7]。DBpedia 本体是一个涵盖多领域的通用本体,dbo:Organization类及其属性是一套通用的组织框架数据集[8]。vcard 本体专注于描述人员和组织,vcard:Organization 与 foaf:Organization、ORG之间存在一些重叠,但它们都可以单独提供有用的词汇表,并且在协作使用时也可以提供增强的信息[9]。

1.2 研究意义及目的

机构本体建模的难点在于对机构之间复杂的关系和机构历史沿革的描述和揭示,如上下级关系、合作关系,由分裂、并购、重组、迁址等事件导致的关系,机构与机构成员之间的关系。随着时间的推移,包括组织结构、人员、角色、权限和组织目标等在内的机构的各种要素和各类关系,都可能在某些事情的推动下发生变化,如政府机构为了提高行政效率,在横向上撤并和整合一些职能相近的机构。机构本体模型的设计需要考虑简捷通用,灵活可扩展,本体词表的设计则需要定义词汇或术语来描述随着时间的变化、机构发生的变化信息以及原始机构和最终机构之间的关系,而目前以机构为核心描述对象的本体词表大多只是定义和描述了一套适用于各类型机构本身特性的框架数据集。虽然ORG本体定义了org:ChangeEvent 类和属性org:originalOrganization、org:changedBy、org:resultedFrom、org:resultingOrganization 来描述机构变革的历史信息(如表1所示)。org:ChangeEvent 类代表一个导致机构发生重大变化的事件,但只适用于最终机构与原始机构完全不同的情况,对于事件发生的时间、地点、人物、关联事件以及由事件所引发的机构与机构的关系变化(如resulting Organization与originalOrganization的关系)、机构内人员/角色的变化等信息缺乏必要的描述[10]。

表1 W3C的ORG本体中描述机构变化事件的属性

本文的研究目的就是在现有机构本体研究和技术发展的基础上,借鉴领域知识本体的构建方法,对机构实体、机构中的人物和角色、事件及其相互关系进行明确的、形式化的揭示和描述,尝试构建一个在万维网上通用的、易于复用、灵活可扩展的机构本体模型和词表。除了定义和描述各类机构的基本框架要素,如组织架构、人员/角色、位置地点等,还记录引起机构发生变化的事件,支持机构内外各种要素的变化信息,如机构变革、层级结构的调整、历史传承,通过各种关系属性将机构和机构,机构和人员/角色联系起来,描述机构和机构(包含机构层级结构中的各个子机构)之间的关系、人员/角色在机构内的关系变化等。

2 机构本体模型和词表设计

本体常常表现为一套体系化的术语词表及其相互之间关系描述,应包括每一个术语的明确定义及其关系,术语分为类(Class)和属性(Property)两种,类是对同一类实体对象的抽象,OWL将属性分为数据属性(DataProperty)和对象属性(ObjectPropery),数据属性是对类的各种特征的抽象,对象属性用于表示类与类之间的关系[11]。尽可能复用现有的本体词表(包含类和属性)是构建本体的一个重要的参考原则,如W3C核心机构本体ORG词表就复用了FOAF、GR、OPMV、ORG、TIME、VCARD等词汇标准。本研究基于核心机构本体模型构建上海图书馆机构本体,复用ORG、foaf和Schema,在上海图书馆现有本体的基础上扩展反映机构间复杂关系和各种历史沿革和变化的术语,形成一套通用的、灵活可扩展的机构本体模型和词表。

2.1 ORG本体模型和词表

W3C核心机构本体ORG是英国政府关联数据工作组倡议的一部分,支持跨领域机构信息的关联数据发布。ORG本体不定义描述组织类型、组织目的或角色等具体的术语词汇,只提供所需的核心基础概念,鼓励用户复用和扩展,允许不同机构根据实际情况扩展添加具体的子类和属性[12]。ORG本体词表目前共定义了9个类,35个属性,描述组织结构、上下级负责(reportTo)关系结构、组织地点和组织历史等信息[13]。ORG本体的核心类是org:Organization,对所能描述的组织机构类型没有明确限制,意味着与具体领域无关。

除了上文提到的org:ChangeEvent 类外,核心机构本体ORG本体定义了丰富的类和属性来描述各类机构的层级架构关系[14]。org:Formal Organization 是 org:Organization 的 一 个 子 类 ,表示在全世界范围内,法律公认的具有相关权利和责任的组织机构。机构的层级架构是完全开放的。例如,一个org:FormalOrganization实体可以自由地与其他org:FormalOrganization实体建立包含或被包含的层级关系。如果某机构由层级架构中的其他组织组成,可以通过org:subOrganizationOf 和org: hasSubOrganization这两个关系来明确各层次之间的关系。在某些情况下,机构的部门或者分支(org:OrganizationalUnit)也可以是独立机构,例如法律认可的企业可能是较大集团或控股公司的一部分,org:hasUnit 和org:unitOf两个属性就用来表示机构拥有分支或者职能部门。ORG 本体还提供了成员关系(org:Membership)来描述人员/机构与机构之间的非包含关系,org:memberOf表示某个人或者机构是更大机构的直接成员,org:headOf 代表了机构的负责人。ORG 本体的核心基础概念是解决异构数据差异的解决方案,为设计通用的一般模型提供了基础框架。

图1 W3C核心机构本体ORG模型

2.2 上海图书馆本体模型和词表

上海图书馆数字人文项目团队拥有多年的本体研究、设计和应用经验。上海图书馆数字人文开放数据平台(http://data.library.sh.cn/)以关联数据(Linked Data)的方式向互联网公开发布了上图数字人文项目所研发的各种本体词表,并提供各种数据消费接口供开发人员调用[15],包含130万余人物的人名规范库和2,000余收藏机构的机构名录、地名词表、中国历史纪年表等基础知识库,是上海图书馆数字人文数据基础设施的重要组成部分,为上海图书馆的家谱、手稿档案、古籍、红色文献、老电影、馆藏书目等文献知识库提供跨网域的数据连接,同时在万维网上以HTTP URI 内容协商,restful API 和 SPARQL Endpoint为其他图书馆、研究者和第三方开发者提供开放数据服务。在构建这些基础知识库和文献知识库时,秉承在复用现有本体词表的基础上扩展的原则形成了一体化的上海图书馆本体模型和词表(见图2,命名空间前缀为:shl),定义了“人(shl:Person)”“机构(shl:Organization)”“地(shl: Place)”“时 (shl: Time)”“ 事 (shl: Event)”“物(shl:PhysicalObject)”等类和属性。继承和复用BIBFRAME、FOAF、ORG、Schema.org、GeoNames、PROV 本体模型和部分术语。shl:Organization 类 继 承 foaf: Organization, org:Organization,并与shl:Person,shl:Event建立了关系。其中,shl:Event复用PROV本体的两个属性(prov:started AtTime 和prov:endedAtTime)描述事件发生结束的事件,复用prov:Agent来描述事件发生的主体(包括机构和人),利用图1本体中自定义的顶层类shl: Resource 的对象属性shl:place 用于描述事件发生的地点。shl:Event类可用于描述shl:Organization类相关的各类事件。上海图书馆本体中已有的机构相关类和属性已用于描述上海图书馆数字人文数据基础设施中的文化记忆机构名录、盛宣怀档案知识库中的公司及其简单的历史沿革信息、上海市联合编目中心书目数据中的出版机构、老电影知识库中的电影公司等[16]。

图2 上海图书馆本体模型

2.3 上海图书馆机构本体模型

由于上海图书馆已有本体模型和词表尚不足以描述机构间复杂的关系和机构的历史变迁信息,因而需要进一步扩展。在机构实体中,“机构”和“人”都是机构管理的主要对象,“事件”则是机构及人所发生的各种历史沿革变迁的信息集合体,所以本研究构建的上海图书馆机构本体以“机构(shl:Organization)”“人(shl:Person)”“事(shl:Event)”为三大核心类。其中,shl:Organization类描述机构实体,需要描述机构的组织架构、组织分类、机构的各种特性等;shl:Person 类则表示机构中的成员,需要描述成员的基本信息、在机构中的角色等;shl:Event描述组织沿革、活动信息和人的角色、关系变动信息等。同时,定义一系列属性来表达三者之间的关系,将“机构”和“机构”、“人”和“人”、“机构”和“人”、“机构”和“事件”、“人”和“事件”关联起来。

现有的机构本体词表对“机构”Organization的基本信息都有相应的类和属性的描述,可以直接继承和复用,定义shl:Organization 类继承org:Organization 类 、schema:Organization 类和foaf:Organization类,以便于可以复用这3个父类的所有属性(如表2所示)。

表2 上海图书馆机构本体核心类

2.3.1 机构基本信息

在构建机构本体数据集时,需要全面考虑机构的名称、网址、电话、地址、邮箱、传真、邮编等各种信息的术语描述。Schema.org是一份公开的、可共享的词汇表,是为数据集进行结构化的元数据方案。标记于HTML页面上的Schema.org标签被Google、Bing、Yandex 和Yahoo!等主要的搜索引擎支持,能帮助搜索引擎理解网页上的信息,从而让搜索结果内容更丰富[17]。Schema.org 结构化数据可用于标记各种项目,其中schema:Organization 是最常用的类之一,定义了大量的属性,可以作为构建机构本体的重要参考和术语复用来源,如表3所示。

schema:Organization数据集对机构基本信息的描述已较为全面。在主要复用现有词汇的基础上,结合机构的互联网相关属性描述需求,对联系方式进行扩展,增加了shl:wechatID(机构微信账号)和shl:blogID(机构微博账号)两个属性,同时定义了shl:hasDataSet属性来链接到机构拥有的数据集。

表3 机构基本属性表

2.3.2 机构的层级结构

不同类型机构的层级结构通常差异较大。比如,企业组织结构是职权-职责关系结构,是企业内部各组织职能分配的一种体现;政府机构层级常常按照行政层级来划分。在设计机构本体层级结构时,需要抽象出一般的机构层级结构模型来容纳各类机构的差异性,形成通用的解决方案,如表4所示。

图3 上海图书馆机构本体中机构基本信息相关的类、属性及其关系

机构(Organization)的层级结构一般可以通层级关系图进行展示。以土地革命战争时期(1927.8-1937.7)中央组织机构的层级结构为例,如图4所示。由图4可见,中央组织机构是最上级机构,下设6个下级机构(org:subOrganization):中共中央领导机构、中共中央工作机构、中共中央军委与中革军委、全总/铁总/海总中共党团、中共苏维埃共和国临时中央政府和群众团体组织,用schema:parentOrganization 和org:has SubOrganization 属性表示。其中,群众团体组织既是下级机构,也是上级机构属其他下级机构。同级下级机构之间可能有关系,用org:linkedTo表示。也可各自独立没有任何关系,如中华全国铁路总工会与中华全国海员总工会虽然都是工会的下级机构,但是各自隶属于不同的行业,并无交集。机构通常会根据职能设立不同的部门(org:OrganizationUnit),用 org:hasUnit,org:unitOf 表示;各部门承担机构的一部分职能,向上级机构汇报(org:reportsTo),如中华全国总工会常务委员会下设组织部、宣传部和女子部等多个不同职能的部门。此外,某些机构会成为其他机构成员(org:Member),彼此只是建立会员关系(org:hasMembership),并不属于上下级范畴等。在ORG框架的基础上,为了特别区分政府、科研等行政事业单位的行政级别关系,增加了shl:level属性,如政务机构的行政级别的取值通常是国务院、省级、自治区、直辖市和区县,如图5所示。

表4 机构层级结构基本属性表

图4 上海图书馆革命(红色)文献平台中共组织史局部

图5 上海图书馆机构本体中机构层级结构相关的类、属性及其关系

2.3.3 机构的人员角色关系

上海图书馆本体定义的shl:Person类及其属性,缺乏对人在机构中的角色和变化进行描述的机制,上海图书馆机构本体将在shl:Person的基础上,复用Schema.org、ORG本体和foaf本体中的相关术语,如Schema:Person类及其属性,并扩展人员与机构的各种关系属性。本模型主要探讨如何完整记录机构内人员/角色与机构的关系,以及由某些事件的影响为这种关系带来的各种变化,如表5所示(不再赘述有关“shl:Person”的基本信息,如国籍、籍贯、性别、生卒年月和居住地等[18]可参考上海图书馆人名规范库http://names.library.sh.cn)。shl:Person类用于对机构和人员/角色的属性及各类关联关系进行抽象与建模,在此基础上,为机构和人员/角色的关系定义详细的描述框架,如图6所示。

表5 机构人员/角色关系属性表

图6 上海图书馆机构本体中机构人员/角色属性及其关系

2.3.4 机构的历史沿革

机构变化通常可以视为由事件引起,上海图书馆本体shl:Event类是对“事件”本身的描述,已包含事件发生的时间、地点,以及和人的关系等属性。ORG 核心机构本体的org:ChangeEvent 类,代表导致机构发生重大变化的事件,适用于原始机构和新机构是完全不同的独立个体,有不同的统一标识符如URI。org:ChangeEvent 类是继承prov:Activity 的子类,prov:Activity表示一段时间内实体与实体之间发生的各类事件,如转化、更新、生成新实体[19]。PROV是一个轻量级本体,专门用于对特定应用来源的详细信息进行建模。本研究构建的机构本体旨在记录和机构相关的各种事件变化,既支持重大事件对机构产生的根本性变革,生成新的机构情况,也支持机构内外部发生的各类事件,如机构外部地址变迁、内部部门结构调整。在继承 org:Change Event 类和 shl:Event 类的基础上,定义了新的shl:ChangeEvent类,以及相关属性来描述机构的沿革和变化,如表6所示。

shl:ChangeEvent类旨在以机构为核心描述对象,反映机构/人员变化的种种情况,所以事件(活动)的相关属性都是用shl:Organization和shl:Person的属性来描述。比如,shl:wasStarted By和shl:wasEndedBy两个属性只是记录了启动和结束事件的相关机构和人员,而不推广至其他实体(Entity)范围。shl:influenced是广泛的影响关系,本模型只定义了“产生新机构(generate)”“注销机构(invalidated)”两种属性,在具体使用时可根据实际情况自定义更具体的关系,也可参照PROV 提供的关系术语Communication、Derivation、Association and Delegation等。以李鸿章创办的“轮船招商局”为例,“轮船招商局”历史沿革事件如图7所示。李鸿章1872年创办轮船招商局(shl:generated)。在创办过程中,李鸿章(shl:Person)是主要发起人(shl:startedBy),唐廷枢(shl:Person)和朱其昂(shl:Person)是产生重要作用(shl:influenced)的人物。1873 年李鸿章(shl:startedBy)将轮船招商局(shl:originalOrganization)从上海南永安街(今黄浦区永安路)迁至上海三马路新址(shl:ChangeEvent),改称为轮船招商总局(shl:generated)。同年设天津、汉口、长崎、香港等19个分局(shl:generated)。“轮船招商局”(shl: original Organization)正式结束(shl: invalidated)。李鸿章(shl: Person)和轮船招商局(shl: Organization)、轮船招商总局(shl:

Organization)是机构事件(shl:ChangeEvent)的核心要素。将这些要素与文献档案中的关键词和主题进行自动匹配,即可实现事件、机构、人员、文献间的动态关联,如图8所示。

表6 机构历史沿革属性表

图7 上海图书馆盛宣怀档案知识库中“轮船招商局”历史沿革事件

图8 上海图书馆机构本体中机构历史沿革事件属性及其关系

3 结语

构建机构本体是结构化、语义化地描述机构的各项特征、机构间的复杂关系、人员角色及其变化、机构本身的历史沿革等信息的重要途径,同时对不同机构信息的语义互操作以及数据开放与共享具有重要意义。本研究针对目前国内通用机构本体的系统化研究与应用比较有限,特别是对机构之间的复杂关系、机构的历史沿革、人事关系变化等方面的研究不足的情况,在对机构的概念、属性及其关系进行梳理和分析、在上海图书馆已有本体模型和词表的基础上,复用多个互联网上应用较多的本体模型,尝试设计一套可以描述不同类型的机构、机构在现实世界上复杂的相关关系,以及在时间和空间中不断变化的历史沿革信息的本体模型和词表。这套本体模型和词表在上海图书馆的数字人文数据基础设施建设中已经得到了一定的应用,用该本体模型及词表描述的收藏机构、出版机构、公司等数据以关联开放数据(Linked Open Data)的形式在互联网上发布,并在上海图书馆已经举办的4届开放数据应用开发竞赛中为第三方机构和开发者提供开放数据服务。由于该本体目前只应用于上海图书馆的数字人文数据基础设施建设中,还需要在更广泛的范围内进行验证,并进一步完善。接下来本研究将会继续探索利用本体构建工具和不同的本体形式化语言对机构本体模型和词表进行形式化,并通过更多的机构数据集来验证其适用性。

猜你喜欢
机构人员
回头的背影——献给所有疫情一线人员
让刑满释放人员找到家的感觉
一周机构净增(减)仓股前20名
一周机构净增(减)仓股前20名
再来一次,这太有趣了!
一周机构净增(减)仓股前20名
一周机构净增仓股前20名
跟踪导练(四)
一周机构净减仓股前20名
机构鉴股