,
(中国国家图书馆,北京 100081)
数字资源长期保存是指随着时间的推移,长期存储、管理数字对象。它要求数字对象能够被长期、无误的存储,在信息需求的整个时间跨度内能够被检索、获取和解释。其首要问题是确保数字对象的真实可信,即保证数字对象在其保存过程中是不变的。但是,数字对象在其保存过程中因为格式转换、媒体迁移、规范化等原因会产生多种变化。为保证数字对象的完整、可追溯以及可复用,就需要对与数字对象相关的事件信息进行有效的保存和管理,以准确记录数字对象的变化历史,保证数字对象的真实、可靠和可用。
数字资源长期保存系统是一类特殊的数据管理系统,数字对象在系统内要经历摄入、保存管理、利用等一系列的管理行为,以确保数字对象经过足够长的时间仍然能够被目标群体所理解和利用,这就需要详细记录数字对象本身和其发生的各种变化,并维护这些变化前后数字对象及数字对象与其相关事件、环境信息以及相关用户的关联关系。随着保存数字对象体量的飞速发展,对保存对象的衍生关系、环境信息、用户信息及相关事件信息的分析日益复杂化,亟需一种有效的面向数字资源长期保存事件信息的组织方式,将各类信息融合起来,实现信息的细粒度解释和多维度关系揭示,为后期长期保存对象的可信性分析提供重要支撑。因此,数字资源长期保存事件信息的语义组织对于保存系统有着极为重要的意义。
“事件”的描述是一个很复杂的问题,目前还没有统一的定义。在知识表示领域,主要关注的是事件的动态性,通过动态知识表示方法对事件进行描述,并对事件的结构、表示和事件的推理进行研究。在本体研究领域,事件被认为是在某个特定时间和环境下发生的、由若干角色参与、表现出若干动作特征的一件事情。在数字资源长期保存领域,PREMIS将事件作为其5个基本实体对象之一,并将其定义为可被数字保存系统所记录的一种影响到至少一个数字对象或代理的行为。PREMIS框架对事件作了丰富和深刻的阐释,将数字对象的演化过程归结为被重要事件驱动并得以体现的过程,例如数字对象的创建、被摄取到保存系统、格式迁移等。在PREMIS中定义了15种保存事件:creation、deaccession、decompression、decryption、deletion、digital signature validation、dissemination、fixity check、ingestion、message digest calculation、migration、normalization、replication、validation、virus check。从信息生命周期来看,事件是对数字对象全生命周期的记录,主要涉及对原始数字对象及转换过程的动态描述。实质上,每个数字对象都要经历从生产、加工、转换、存储直至消亡的过程,与数字对象有关的事件信息包含摄入、检查、迁移等方面的事件。本文所讨论的事件是从数字资源长期保存的角度,以工作流程为主线,讨论数字资源长期保存生命周期中所涉及的一系列事件。
目前,事件本体的研究在国内外仍处于起步阶段,虽然已开发出很多关于事件本体的表示模型,但尚未形成统一的标准,各事件本体表示模型的主要区别体现在事件的定义、事件类型的划分、事件本体的应用领域、形式化表示方法和事件本体的结构上。总的来说,主要有两种本体构建思路:一种是利用本体技术直接构建本体模型;另一种是借鉴或者复用已有的成熟本体进行构建。本研究的本体构建将借鉴已有的成熟本体,在分析现有事件本体模型的基础上,构建基于本体的数字资源长期保存事件信息模型。目前已有一些成熟的事件本体模型,如最初用于描述演出或演奏音乐的事件本体EO、用于解决时空问题的BFO本体模型、面向对象的CIDOC CRM(CIDOC Conceptual Reference Model)以及基于事件的ABC本体模型等。其中,ABC本体模型是一个共享概念模型,其主要以事件为驱动,通过对事件、情景、动作和代理等概念及其关系的描述来表示事件,是一个轻量级、通用性好且概念清晰的成熟本体模型,能够对一般事件过程进行良好的表达。目前ABC本体模型已被广泛应用于博物馆、图书馆、档案馆等领域,本研究以ABC本体作为借鉴对象,构建数字资源长期保存的事件本体模型。
事件是数字对象一系列变化的驱动力,借助事件可以有效掌握数字对象的动态变化。随着数字对象长期保存过程中事件活动的增多,通过了解与数字对象相关的事件链,就可以展现长期存储对象的状态变化情况。在对数字资源长期保存事件本体模型的设计中,将事件定义为系统可识别的,能够至少影响一个对象的动作,如调取文件、捕获数字对象、病毒检查等。根据OAIS(Reference Model for an Open Archival Information System,开放档案信息系统)的定义,数字对象在整个数字资源长期保存过程中将经历摄入、归档、数据管理、利用等环节。对于长期保存事件的判断和甄选,应以OAIS定义的保存流程为依据,参考PREMIS已定义的事件类型,综合考虑数字对象的产生、发展变化,以及数字对象的衍生物,进而为保存数字对象的真实性、可信性、可追溯性和完整性的验证提供有效依据。在数字资源产生之初,就存在不可预知的变化因素,导致数字对象重要属性发生改变,如由于系统外部技术发展和目标群体改变引起的软硬件环境变化,系统内部自身对数字资源的直接管理等,这些因素都会导致数字对象内容信息的变化,即使部分资源本身变化不大,也需要考虑与之相关的数字对象的变化,并全面了解基于数字资源保存生命周期的详细事件信息。
基于信息生命周期理论,对长期保存事件信息的遴选涉及OAIS的整个保存周期,仔细分析相关参考模型和各保存系统的实际应用,数字对象的事件信息可以划分成资源处理过程中发生的事件、资源保存过程中发生的事件、资源利用过程中发生的事件三类。资源处理过程涉及资源检查、资源摄入、资源传输等多个方面,如对资源进行检测、校验、转换、规范等一系列操作。同时,为应对保存环境的变化,对资源进行的格式迁移、软硬件环境迁移、等操作。资源保存过程主要涉及资源的存储,如避免存储介质的老化、故障、过时的可能风险,而进行了数据备份、介质迁移等。资源利用过程主要涉及为满足用户需求,保证资源的真实呈现,而进行的处理、转换、传输、呈现等操作。
本体(Ontology)的出现有效解决了信息组织中语义冲突方面的问题,目前被广泛接受和使用的定义是1993年Gruber提出的“本体是共享的概念模型的形式化规范说明”。本体描述的是某个特定领域的一种形式化、共享的概念化模型,它通过对概念的沿革定义和概念之间的关系来确定概念的精确含义,提供对某个领域一种共享的、通用的理解,帮助任何计算机进行交流,其支持语义级的交互。目前很多领域都积极开发自己领域的本体,如法律知识本体、数字图书馆领域本体、新闻本体等等。然而数字资源长期保存领域本体的研究尚不成熟,特别是针对数字资源长期保存活动过程中事件等动态信息的本体研究鲜有学者涉猎。数字资源长期保存事件信息组织是一个复杂的过程,目前长期保存领域的本体研究大多停留在对保存数字对象信息的机构化聚合层面,尚未建立数字资源长期保存实践信息的多维度管理体系。随着大数据时代的来临,长期保存管理者的着眼点已不再局限于揭示保存数字对象信息之间的关联关系,而是更关注相关关系,通过相关关系的应用,可以比以前更容易、更便捷、更清晰地分析保存数字对象,确保其真实、可靠、完整和可追溯。
对数字资源长期保存事件信息的分析过程中,在分析资源来源的同时,也可以构建与资源版权相关的衍生信息,方便用户根据衍生信息验证数字对象的版权,对数字对象溯源,分析其真实性。对数字对象创建者而言,其可以借助事件的多维度关联体系,不仅可以了解数字对象之间的因果关系,而且可以了解相关关系,方便获取创建对象的使用情况,实现对资源版权的有效保护,避免出现版权纠纷。同时,在数字资源长期保存实施过程中,技术发展带来的有关大数据、分布式、虚拟化等技术的应用,使得对保存数字对象的保存管理和利用日益复杂化,然而在混乱纷杂的数字对象中寻找与之有关的有用事件信息和知识已成为数字资源长期保存管理者和决策者必须面对的挑战。基于数字资源长期保存事件本体模型的研究对于数字资源长期保存决策者和管理者及时、高效地获取有序化、集成化和知识化的事件信息,并采取有效措施干预数字保存过程,确保数字对象的稳定、可靠、真实具有重要意义,是数字资源长期保存研究突破事件信息管理困境的有力支持。
对长期保存事件信息的管理是处理大量数字对象在保存过程中产生的大量派生信息,通过对事件信息进行不断的存储和积累,形成不同类别事件的历史案例数据库,通过对不同的数字对象相关事件信息的关联和纵向分析,能够提炼出相关事件信息的规律和特点,掌握数字对象的变化过程,了解与之相关的原因、地点、事件等信息,进而解决包括数字对象不变性、可靠性、真实性等在内的复杂问题,有效增强同类型数字对象从产生到利用整个生命周期变化的规律性,以便于完整保存初始资源及原生资源。
本研究以数字资源长期保存的事件信息为研究对象,主要对数字资源长期保存事件所属主题、参与主体、发生点、发生时间、结果等方面的概念及概念间的关系进行描述。借助本体所建立的关联,可将数字资源长期保存事件信息的多维语义特征内容进行整合,由于设置的事件信息知识库的字段更加细粒度,更容易对长期保存数字对象进行跟踪和溯源,保证资源的有效性和真实性。构建数字资源长期保存事件信息本体的目标是要形成对于数字资源长期保存事件信息组织结构的共同认可理解,为数字资源长期保存其他领域本体的构建提供有章可循的方法和技术路线,同时进一步为建立数字资源长期保存领域语义Web奠定坚实的基础。
针对从数字资源长期保存活动中所采集到的各类与数字对象相关的事件信息进行概念分析,并以事件为驱动,构建数字资源长期保存事件信息本体的概念模型,以便更有效地描述数字资源长期保存生命周期内某个数字对象的创建、发展、和变迁。数字资源长期保存的事件信息语义组织框架主要从事件标识符、细节描述、时间、事件类型、处理设备、处理结果、地点、发生原因、事件所涉及的责任人、被操作的数字对象基本信息等概念进行设定。通过预处理、消歧、过滤等操作进行获取,并开展事件信息特征的抽取工作,然后将抽取的知识单元基于构建的长期保存事件信息本体揭示其内在的多维度关联,最后存储到数据库中。
在数字资源长期保存的整个生命周期中,要综合考虑事件信息的影响因素,笔者认为事件信息本体模型的设计应当遵循以下原则:
(1)以数字对象的保存生命周期为依据,将数字对象摄入作为起始点,对摄入保存系统后整个生命周期所有变化的动态信息进行收集、整理和分析。
(2)以OAIS为准则,遵循OAIS组织管理数字对象的基本工作流程,明确定义事件信息的构成。
(3)以ABC本体模型作为借鉴对象,以事件为驱动,通过对事件、情景、动作和代理等概念及其关联关系的描述来表示事件信息。
(4)以数字对象的长期保存业务工作流程为核心,进行数字资源长期保存事件信息的组织、分析和对事件本体的构建。
数字资源长期保存事件信息本体建模的目标是帮助数字资源长期保存管理者,特别是长期保存决策者在数字对象保存活动中发展变化的关键节点进行有效的监控和跟踪,并及时有效地采取措施,解决保存过程中出现的问题,保证数字对象的可信性、结果的可靠性以及数字对象修改或分析过程的透明性。为了更有效地表达保存数字对象所发生的变化和知识结构,本文结合7W信息(What、Where、Who、When、Which、Why、How),对ABC本体模型进行了一定扩展,如增加组织、个人、软件、硬件等主体概念。考虑到交互性与长期保存事件表达的需要,模型采用分层结构,即上层本体和应用层本体。上层本体满足长期保存领域复杂事件的通用概念描述,实现与其他领域本体融合、交互;应用层本体,即数字资源长期保存事件信息本体,主要描述数字资源长期保存事件知识,同时针对保存数字对象的特点,考虑事件实施对象的情境信息和事件实施者,并依此评估保存数字对象的可信度。
4.2.1 上层本体建模。
(1)ABC本体模型。Harmony项目开发ABC本体模型重点是对事件概念的建模,通过对事件、情景、动作、代理等概念和概念间的关系的描述,表达事件内容。主要概念涉及:1)Actuality:主要用于描述客观世界的现实存在;2)Temporality:描述具有时间存在性的实体;3)Situation:用于描述上下文环境(Context);4)Event,说明Situation间的转换,通过precedes和follows属性与Situation建立联系,并与行为主体(Agent)相互联系。Event由Agent触发,产生对客观世界的改变是与实践相关联的。
ABC本体具有轻量级、通用性好,概念清晰等特点,其对一般事件过程均能进行良好的表达。但是长期保存事件表达是一个跨领域的知识工程,长期保存数字对象事件本体又属于多事件集成,而ABC本体对于多粒度案例事件表达存在困难,主要表现在:ABC本体事件没有定义过程(Process)概念,对长期保存过程中的复杂性事件过程表达能力不足;ABC本体中Agent表达事件的行为主体,对于表达单一事件具有简洁、清晰的特点,但是对于长期保存活动这种多类型主体(如事件的多类型实施主体),其表达能力不足;代理(Agent)是长期保存事件的核心要素之一,ABC本体缺乏对其代理的进一步细分和描述。
(2)ABC扩展本体模型。为了更准确表达数字资源长期保存过程和事件知识结构,本文对ABC本体进行扩展,增加组织、个人、软件、硬件等主体概念以及过程等概念,构建ABC扩展本体模型,作为长期保存事件模型的上层本体。
1)个人(Person)、组织(Organization)、软件(Software)、硬件(Hardware)都是概念Agent的扩展类,个人和组织作为参与主体共同作用于数字资源长期保存事件,影响其发展与演变。为了更好地体现参与主体中各组织机构的职责和作用,将组织进一步分为长期保存委托机构、资源保管机构、资源生产机构、资源提交机构、资源利用机构;根据承担保存任务的不同,又将参与长期保存个人分成长期保存资源提交者、长期保存资源管理者、长期保存资源利用者、长期保存技术管理者。
2)数字资源对象(Object)是Actuality扩展子类,表达可供Agent利用的实体。
3)过程(Process)用于表达某个事件发生在数字资源长期保存的某个阶段,即驱动事件发生的任务,具有时间依赖性。
4)主题(Topic)用于表示事件分类,如病毒检查和不变性验证均属于验证类事件,有利于对不同事件进行归类,利于长期保存管理者和决策者对数字资源长期保存工作的整体把握。
4.2.2 数字资源长期保存事件信息本体模型。在构建数字资源长期保存事件信息本体模型时,将其分成事件层、流程层、主体层,如图1所示。其中描述性的知识定义在事件层,指定数字资源长期保存事件相互之间的关系;流程性知识主要定义在流程层,描述了长期保存事件涉及的一系列数字资源长期保存阶段;主体层主要定义代理所采取的行动知识,层之间的关系包括参与、响应、参考等。本研究定义的数字资源长期保存本体模型的概念如下所示:
Thing | Happening | Time | Place | Agent | Topic | Event | Object | Person |
Organization | Process | Digitalresource | Metadata | Software | Hardware | Action |entrustognization | Preservation Organization | Resource production organization | Resouce submitting organization | Resource utilization organization | ResourceSumitter | Resource Manager | Resource User | Technology Manager
图1 数字资源长期保存事件信息本体建模
数字资源长期保存事件信息本体主要包含1个顶级类Thing、6个一级类、11个二级类,其中Thing是顶级类,其余涉及的概念和类具体如下:1)Happening是所有长期保存事件的父类,Event、Process、Object是3个子类,各子类的具体含义如下:Event表示动态事件的概念,多个Event共同组成一个具体的数字对象长期保存的例子;Process描述事件发生时所处的长期保存工作流程阶段;Object是指具有关联关系的数字对象集合,它能够描述一组关系事件推动的完整的数字对象的长期保存过程,并有利于追溯数字对象的起源信息。2)Agent是Person、Organization、Software、Hardware的父类,用于表示事件中Who要素,即事件的操作方。狭义的代理指事件的操作者,此处代理的含义更广泛,包括组织、个人、软件和硬件四种内容。3)Topic表示事件分类,部分事件是由一类事件构成,如病毒检查和不变性验证均属于验证类事件。对于同类事件的归类,有利于同类事件的建立联系,方便进行事件知识的关联和组织。本文设定检查事件类和摄入事件类,当有新主题时,可以自定义添加补充。4)Time表示事件涉及的时间,用于表示事件中When的要素,即事件发生的时间,可能是一个时间点,也可能是一个时间段。5)Place表示事件中的Where要素,即事件发生的位置信息。6)Object是事件的具体实施对象,指向具体的数字资源数据,包括数字资源(Digital resource)和元数据(Metadata)两个子类。
4.2.3 长期保存事件信息本体模型中概念的数据属性。对于数字资源长期保存事件信息本体模型中的每个概念都有数据属性,其中子类继承父类的全部属性,因此子类的某些与父类相同的属性就不再进行论述,如表1所示。
表1 数字资源长期保存事件信息本体概念属性
续表1
4.2.4 建立数字资源长期保存事件信息语义关联。事件及其涉及的实体可能与其他事件或实体相关联,数字资源长期保存事件与事件之间也存在此类关联,这些关系可以是时间上并发,位置上并现,也可能是时序关系、因果关系等,通过语义关联的获取,可以得到与保存数字对象相关事件的集合,方便对长期保存数字对象的溯源,评估数字对象的安全性和可信性以及操作流程的有效性。本研究总结了数字资源长期保存事件信息本体中设计的概念间关系,如表2所示。
表2 数字资源长期保存事件信息语义关系及其示例
数字资源长期保存事件信息是重要的数字资源长期保存信息资源,对其进行语义组织有助于准确记录数字对象的变化历史,保证数字对象的真实、可靠、可用和可追溯。本研究以面向数字资源长期保存工作流程为主线,基于语义关联的理论构建了数字资源长期保存信息本体模型。然而,数字资源长期保存活动中的动态事件语义组织工作是一项复杂的系统工程,今后仍然需要结合具体的长期保存应用系统,进行进一步的梳理和界定,并对具体实现步骤进行进一步的深入研究。
[1]PREMIS data dictionary for preservation metadata,version 2.0[S/OL].[2017-05-13].http:∥www.loc.gov/standards/premis/v2/index.html.
[2]Smith B.On classifying material entities in basic formal ontology[EB/Ol].[2017-06-18].http:∥ontology.buffalo.edu/smith/articles/Material_Entities.pdf.
[3]Crofts N,Doeer M,Gill T,et al.Definition of the Cidoc conceptual Reference Model[EB/OL].[2017-06-07].http:∥www.cidoc-erm.org/docs/cidoc_crm_version_4.2.pdf.
[4]lagoze C,Hunter J.The ABC Ontology and Model[J].Journal of Digital Information,2002,2(2):1—18.
[5]GruberTR.ATranslation Approach to Portable Ontologies Specificationsspecifications[J].Knowledge Acquisition,1993,5(2):199—220.
[6]白同强,刘 磊.语义Web的研究与展望[J].吉林大学学报:信息科学版,2004,22(2):154—159.
[7]白如江,于晓繁,王效岳.国内外主要本体库比较分析研究[J].现代图书情报技术,2011(1):3-13.
[8]Ram S,Liu J.A New Perspective on Semantics of Data Provenance[C].SWPM,2009.
[9]YUNHE,HAMZAAB,KRIMH.Ageneralizeddivergencemeasureforrobustimageregistration[J].IEEE Transactions on Signal Processing,2003,51(5):1211—1220.
[10]王文俊,杨 鹏,董存祥.应急案例本体模型的研究及应用[J].计算机应用,2009,29(5):1437—1440,1445.