桑梓森 王凤英
摘 要 计算机的广泛应用导致了信息爆炸式增长,这些信息可以分为原始采集录入的数据以及由这些原始数据派生的数据这两类。其中派生数据占大多数,它们一般都经过了一系列的处理,由于其派生过程无法得知,用户往往怀疑这种数据的可靠性及安全性,因此,关心这些信息的产生过程和产生它们的源数据对于保证数据安全性是十分必要的。本文深入研究了基于W3C的起源模型PROV-DM,从该起源模型的六个组件的角度进行描述,并以万维网上的一个文档作为实例,采用PROV-DM数据模型讨论了该文档的产生及派生过程。
关键词 数据起源 安全性 安全数据起源模型
中图分类号:TP3 文献标识码:A
0引言
计算机的广泛应用导致了信息爆炸式增长,人们处理的信息呈几何级增长,这些信息可以分为原始采集录入的数据以及由这些原始数据派生的数据这两类。其中派生数据占大多数,它们一般都经过了一系列的处理,由于其派生过程无法得知,用户往往怀疑这种数据的可靠性,事实上也确实如此,派生的数据往往存在纰漏甚至与原始数据毫无关系。这种现状使得用户不得不关心这些信息的产生过程和产生它们的源数据,这就导致了数据起源技术的产生。
因为数据起源是新兴的研究领域,所以目前对数据起源的研究主要集中在建模、计算、存储、查询等工作上,对确保数据起源信息安全方面的研究比较少。如果收集到的起源信息本身安全性得不到保证,无法确保起源信息的完整性和机密性,那么我们就不能依赖它们来确定数据对象是否可信,起源信息就失去了其存在的价值。所以数据起源信息安全的研究有其重要的现实意义。安全起源无论在法律上还是在科学实验中都有着及其重要的作用。
数据起源的安全性主要考虑其完整性,机密性以及不可否认性。论文将在基于W3C标准的起源模型上研究安全起源,使用有向无环图来描述起源模型。通过对各种加密算法的研究和分析,选取合适的加密算法,以实现起源关系和起源信息本身的完整性和机密性的要求。
1基于W3C的数据起源模型PROV-DM
PROV-DM全称是Provenance Data Model,即数据起源模型。起源概念,表现为PROV-DM类型和关系。这些关系被归纳为六个组件,即实体和活动;派生;代理、义务和影响;描述包;替代化;集合。
(1)实体和活动:PROV-DM的第一个组件是关于实体和活动,及它们之间的相互关系:已使用(使用),已产生(产生),已开始(开始),已结束(结束),已失效(失效)和已被告知(通信)。实体是一个拥有固定方面的物理、电子、概念型或其他类型的事物;可以是真实的也可以是虚构的;活动即在一段时间内发生在、作用于实体的事件;可以包括实体的消耗、加工、转换、修改、迁移、使用或产生。如图1所示使用UML来描述第一个组件。核心结构在黄色区域展示,包括两个级别(实体、活动)和它们之间的3个二元关联:已使用(使用),已产生(产生),和已被告知(通信)。图的其余部分展示了延展结构部分,包括UML关联级别。
图1 实例和活动组件UML描述
(2)派生:派生是一个实体到另一个实体的转化,一个实体更新后会成为一个新的实体或者是可以基于一个已存在的实体创建出一个新的实体。
(3)代理、义务和影响:代理为一个活动的发生、一个实体的存在或另一个代理的活动承担某种形式的责任;义务是活动代理责任承担任务,指明了代理在活动中所扮演的角色。它进一步允许一个计划可以被指定,该计划指的是在活动的背景下代理需要实现的某些目标影响是指一个实体、活动或代理有能力通过使用、开始、结束、产生、失效、通信、派生、属性、关联或授权而对相互的特性、发展或行为产生影响。
(4)描述包:描述包是对一系列起源描述的称呼,它本身就是一个实体,因此可以表示起源的起源,对一个描述包的名称进行定义可以采用描述包构造函数进行。
(5)替代化:替代是实体间的特殊化(特殊化)和替代(替代)关系。图 2描述了第替代组件,包括一个单独分类和两个二进制关系。替代组件可以对同一个数据采用两个不同的起源描述该数据的两个不同方面。
图2 替代组件关系描述
(6)集合:一个集合是拥有成分的实体。成分本身也是实体,因此它们的起源可以被表达。某些应用需要能够表达收集本身的起源:例如,谁维护该收集(属性),在其演变中包括哪些成分,它是如何被集合起来的。
为了构建安全数据起源模型,保证数据起源记录的完整性和机密性,可以通过向状态节点之中添加安全组件的方法来保证互相关联的状态节点的完整性及机密性。如图3所示为一个通过添加安全组件构建的安全数据起源模型。
图3 加入安全组件的数据安全起源模型
为了生成并添加安全组件,在节点Pi生成节点Ai时,同时生成一个节点Si,该节点用来保存节点Ai的起源信息以及该信息的安全性。对于需要进行机密性保存的节点Ai的部分信息或元素中的某些信息,主要是节点描述中的description部分(该语义主要是描述和其他节点之间的必要元素关系,例如时间以及环境变量等),则将其保存在附加节点Si中,然后采用协议密钥进行加密保存。
组件及其依赖性在如下图4中有所体现。一个组件对另一个组件中所定义概念的依赖,在图中显示为前者在后者的上方。例如,组件5(替代化)依赖组件4(描述包)中所定义的概念,而其又依赖组件1(实体和活动)中所定义的概念。
图4 PROV-DM组件间的依赖关系
2 PROV-DM实例描述
上一部分对起源的一些概念以及PROV数据模型是怎样通过类型或关系给出这些概念的。本部分将这些概念与实际应用联系起来,以表达一些发布在网络上的文件的起源。PROV的概念在实例中相互协作,显示起源表达式的插图构成了一个定向图,据此我们可以对实体的起源进行解释,并且指出实体、活动以及代理。这个实例同样也展示了有时不同的起源表达式可以共存于同一个实体,这证明了追踪起源的起源的必要性。
在本实例中,我们将发布在万维网上的一些文件作为目标,描述它们的起源。为便于描述,以http://www.w3.org/TR/2011/WD-prov-dm-20111215中的文档为例,它的起源可以从不同的角度来表达:首先,可以从作者的视角出发看起源;其次可以被看成是一个W3C过程;除此之外还可以提供这两个起源描述的属性。下面从过程描述的角度采用PROV-DM描述该文档的衍生过程。
万维网联盟根据出版政策发布文档。定期的文档发布反应了小组工作的完成。每一个工作草案的发布都需要向发出网络管理员的"发布申请"。 W3C编辑者同样需要为文档的最初版本提出"调整申请"。所有的工作草案都可以在一个特殊的IRI中被访问。我们根据文档的发表政策以及相关请求,对同样一个文档的不同版本进行观察两个版本的文档:tr:WD-prov-dm-20111215 (第二个工作草案) 和 tr:WD-prov-dm-20111018 (第一个工作草案);
(1)WWW联盟 (w3:Consortium)发布tr:WD-prov-dm-20111215和tr:WD-prov-dm-20111018;
(2)tr:WD-prov-dm-20111215的发布活动为ex:act2;
(3)tr:WD-prov-dm-20111018 的发布活动为ex:act1;
(4)tr:WD-prov-dm-20111215为 tr:WD-prov-dm-20111018的派生;
(5)发布活动ex:act1使用一个发布请求 (email:2011Oct/0141)以及一个编 辑请求(chairs:2011OctDec/0004);
(6)发布活动ex:act2 使用一个发布请求 (email:2011Dec/0111);
(7)文件根据发布规定 (process:rec-advance)内容发布,即PROV术语中的计划。
现在我们开始对一些PROV描述进行解释,通过PROV-N符号对其进行表示,如下图 5以图解的形式呈现所有起源记录的细节信息。
将一个工作草案文档(rec54:WD)视为实体以便我们能够描述其起源。
实体(tr:WD-prov-dm-20111215,[prov:type='rec54:WD'])
发布活动
活动(ex:act2,[prov:type="publish"])
发布活动产生了文档:一个产生过程。此产生没有指定时间因此用'-'标记。
被产生的(tr:WD-prov-dm-20111215,ex:act2,-)
文档的第二个草案由第一个派生而来:一个派生过程。
派生自(tr:WD-prov-dm-20111215,tr:WD-prov-dm-20111018)
这个活动需要一个发布请求:一个使用过程。没有指定的时间因此用'-'标记。
已使用(ex:act2,email:2011Dec/0111,-)
这个活动与互联网联盟代理有关联,根据联盟发布政策进行:一个关联过程。
关联(ex:act2,w3:Consortium,process:rec-advance)
图5通过一个多边形展示了这种关系,关联标签指向一个代理和实体。这个简单的实例展示了不同的PROV概念,例如实体、代理、活动、使用、产生、派生和关联。恰巧这个例子中的所有实体本就是网络资源,拥有固定的可用IRIs。我们注意到某些IRIs是可用的公共资源,但某些是有访问限制的:只能通过其标识符来寻找起源。如果标识符之前不存在,那么一个活动可以产生标识符,且在实例ex:act2中,可以通过前缀指明的命名空间来确定。我们发现W3C开发的IRI计划尤其适用于表示文档起源,因为每一个IRI都代表了一个特定版本的文档。通过PROV很容易就能够确定个版本间的关系。我们同时发现关联其实是活动、代理和计划构成用多边形表示的三元的关系。
3结论
随着计算机的逐步普及,存储硬件的不断更新和存储技术的不断完善使得大量收集和存储数据信息成为可能,数据在其生命周期中都要经历从产生到存储查询以及加工处理到最后的删除或存档的过程,数据起源能够记录数据对象在其生命周期内的演化过程,可用于验证数据对象的可信度,同时某种程度上可反推演数据的加工过程。本文从PROV-DM的六个组件角度研究了数据起源模型,并以万维网上的一个文档作为实例,分析其产生及派生过程。
参考文献
[1] 戴超凡,王涛,张鹏程.数据起源技术发展研究综述.计算机应用研究,2010(9): 3215-3221.
[2] 李亚子.数据起源标注模式与描述模型.现代图书情报技术,2007,7: 10-13.
[3] Moreau,L.,Missier,P.Prov-n:The provenance notation.2013.
[4] Moreau,L.,Missier,P.Prov-dm:The prov data model.2013.
[5] Moreau,L.,Missier,P.Prov-dm: The prov data model. W3C Recommendation (April 2012), in,Editor^Editors.2012.p.