吕海燕,李华伟,车晓伟,王丽娜
(1.海军航空工程学院 山东 烟台 264001;2.山东商务职业学院 山东 烟台 264670;3.中国航天科技集团五院513所 山东 烟台 264001)
数据处理和电子数据交换在很大程度上依赖于数据库中所记录数据的准确性、可靠性、可控制性和可校验性。数据的提供者和使用者对数据的含义和表达有共同的理解是正确而恰当地使用与解释数据的前提。要促使这样一种共同的认识,就必须定义数据的若干特征或者属性。这些数据特征通称“元数据”,即“定义和描述其他数据的数据”。元数据注册系统是支持注册功能的一个元数据数据库。注册实现3个主要目的:标识、来源和质量监控。元数据类型包括:对象类、特性、数据元、数据集、值域、术语等。一个数据元是一个单独的数据单位,在其特定的相关环境中不可分割。在其使用范围内,它不可能被分解为更多且具有含义的基本信息组。即数据元是能够描述一个完整的、有意义的信息的最小单位。因此,在一个元数据注册系统中,如何注册数据元是用户最为关心的问题。
数据元是可以用一组属性描述其定义、标识、表示和允许值的数据单元。在特定的语义环境中,它被认为是不可再分的最小数据单元[1]。
图1给出了数据元的基本模型,由数据元概念和数据元两部分组成。
图1 数据元的基本模型Fig.1 The basic model of data element
数据元概念是一个对象类与一个特性的组合,而数据元是由数据元概念和表示两部分组成的。当一个表示与一个数据元概念结合时就能够产生一个数据元[2]。如图1所示,数据元和数据元概念之间存在多对一的关系,也就是一个数据元必须要有一个数据元概念,而一个数据元概念可以对应多个数据元,换句话说,多个数据元可以共享一个数据元概念。在需要生成概念上相似的数据元时,一个数据元概念可以与不同的表示关联产生不同的数据元。
如图1所示,数据元由3部分组成[3]:
1)对象类:现实世界中有清楚的边界和含义、其特性和行为遵循同样的规则而能够加以标识的想法、抽象概念或事物的集合。例如,设备、装备、患者、医生、卫生机构等。
2)特性:对象类的所有个体所共有的某种性质。
特性是一个对象类的所有成员所共有的特征。它用来区别和描述对象,是对象类的特征,但不一定是本质特征,它们构成对象类的内涵。例如射程、航速、身高、体重、血压、脉搏、血型等。
3)表示:表示可包括值域、数据类型、表示类(可选的)和计量单位4部分,其中任何一部分发生变化都成为不同的表示。值域是数据元允许值的集合,例如医疗毛收入这一数据元的值域是用非负实数集(以人民币为单位)作为它的允许值集合;数据类型是表达数据元允许值的不同值的集合,以这些值的特性和运算为特征,例如患者姓名的数据类型是“字符”;表示类是表示类型的分类,它是可选的,例如性别代码这一值域的表示类是“类别”;计量单位是用于计量相关值的实际单位,例如患者血压测量的计量单位是“mmHg”。
数据元的基本属性模型如图2所示。一个数据元由一组属性组成,使用了基数型和逻辑相关性两种准则对数据元的基本属性进行分组,分在同一组的属性共同拥有相似的基数和逻辑相关性[4]。
图2 数据元基本属性模型Fig.2 Data element basic attribute model
基数型:每一个数据元都可能包含 0或1(0:1)、1且仅仅是 1(1:1)、0 或多(0:N)、1 或多(1:N)个列于图 2 中的属性。
例如:一个数据元可能包含0或1个“主管机构”属性,但要求有1且仅仅是1个“定义”属性;可能包含0或多对“相关数据参照”与“关系类型”属性,但要求有1或多个“数据元允许值”属性。
逻辑相关性:属性除了有相似基数类型外,还可能彼此依赖,也就是说,某种属性在没有其他属性存在的情况下不可能存在。
例如:如果属性“同义名称”和“相关环境”两者有一个存在的话,那么它们两者就都应当存在。类似地,如果属性“相关数据参照”和“关系类型”两者有一个存在的话,那么它们两者就都应当存在。另一方面,即使属性“相关数据参照”和“同义名称”有相同的基数类型(0:N),它们也不能相互依赖而存在,从而它们不能分在同一组。
表1根据基本属性模型列出了5类25个基本属性。纵列 “约束”是指在数据元字典中该属性是 “必选 (M-mandatory)”,还是“条件选(C-conditional)”,或者是“可选(O-opertional)[5]” 。
表1 数据元属性Tab.1 Data elment attribute
元数据属性的约束情况具体说明如下:
1) “M”=必选。要求必选的数据元属性,没有例外,如数据元名称、定义、标识符等。
2) “O”=可选。可选的数据元属性,数据元的提交者或维护者如果愿意提供额外的关于元数据项的信息时,可以选用。如数据元的表示类别、分类模式等。
3) “C”=条件选。条件选的元数据属性,依赖于一个可选的元数据属性的使用。当该可选元数据属性使用时,需要使用相同的条件选元数据属性。如:若选择数据元的同义名称属性,则相关环境属性也不可缺少。
数据元附加类属性是对基本属性的扩展。某一领域内的专用数据元,在遵照数据元基本属性的基础上,可以根据本领域数据元的特点和特殊需求进行扩展[5]。附加属性可以适用于任何类别的标识类属性、定义类属性、关系类属性、表示类属性或管理类属性。
例如,对于“软磁体感应系数”这一数据元,需要给出其计算公式,这一属性可以通过附加属性“计算方法”(属于表示类属性)实现,数据元“软磁体感应系数”计算公式:
其中:
L——是绕在磁芯上的线圈的电感量;
N——是线圈的匝数。
数据元的注册主要有两种方法:自下而上的方法,在注册之前,关于数据元的有限信息是可以获得的;自上而下的方法,事先可以识别概念上的信息[6-8]。自下而上的注册程序提供了在定义关于数据元概念信息之前,就完成的关于数据元(例如,定义、名称、允许值)的基本元数据属性。
在多数情况下,提交者提供注册的数据元仅是一些有限的信息(例如,名称、定义和允许值的集合),其他属性(例如,该数据元所关联的对象类、特性、数据元概念、概念域等)必然由基于对其他一些事实所隐含的潜在数据元和概念的理解来决定。对现有系统进行操作的注册系统操作人员,可能会发现从数据元到数据元概念的操作是合适的。
通常提交注册的数据元的信息是有限的,可能是在文件中或由提交组织提供的名称和定义,也有可能包括允许值的集合。有些数据元的元数据可能永远也不会完整。如计算机软件的应用数据元,除了表示属性(例如,字段长度和数据类型)外,其他信息很少。对这些数据元,仅注册最基本的属性,数据元的注册状态是“已记录”。
笔者以数据元“维度六十进制度量”的注册为例,描述了基于自下而上的流程如何编写一个数据元的属性。注册流程按照分析和编写一个数据元属性的逻辑顺序来表述。
1)数据元的理解 注册程序的第一步是理解一个特定数据元。哪类数据可以存储在该数据元中?是否有数据值的定义或描述?是否提供数据的允许值或者示例?数据值是由算法还是统计来决定?数据值的表示是什么?例如,它们可以是事物的名称或描述,可计算的数值,作为标识符的字符串或数字。当提交的文件不足以满足对数据元的理解时,操作人员应咨询该数据元的提交者,以获得必要的信息。
纬度是对赤道南或北子午线的弧度距离的一种度量。为了数据转化,纬度度量值前面应有定向符号(+或-),度量包括小数弧秒时,它们应有小数点。纬度值在赤道以北的记录为正数;以南为负数。记录纬度测量值的表示方法有:度数和十进制数,以及六十进制[即度、分(1/60度)和弧秒]。尽管新技术、新工具(例如,全球定位系统(GPS)和分析、绘图软件,使得一些地理信息专家喜欢用度和十进制度数度量定位坐标,但许多组织依然使用度、分和弧秒度量纬度注册一个数据元。
第一步的结果是对数据元语义内容的理解。
2)内容研究 注册者在形式化新注册数据元的属性之前,应研究并确定:
①在现有的国际、国家或组织中是否有对该数据元的描述?
②注册系统中,是否存在可再利用的数据元?
有必要认识到,在记录元数据于注册系统时,注册操作人员应进行值确认。操作人员将决定是否采用一个数据元以满足新需求,或者是否有某个现有数据元的属性 (例如,值域、数据元概念或概念域)可被该新数据元利用。内容研究应包括概念域、数据元概念和值域以及数据元的研究,以识别可能与将被注册数据元有关的属性。如果现有的标准数据元可以用作一个典型来满足带有新目的的特定,那么一些相关的元数据项可被再利用于该新数据元的注册。
该步骤的结果是确认所需的新数据元,或决定是改造还是再利用现有的数据元或它的一些属性。
3)数据元定义 一个数据元的基本语义内容应从数据源的定义中获得。在一个注册机构内,数据元的定义应该是唯一的。数据元“维度六十进制度量”定义为:赤道以北或南的经线(子午线)角距离的六十进制度量。
4)允许值和值域 GB/T 18391.3给出了描述允许值域的属性。数据元的全部允许值构成了该数据元的值域。纬度的度量是一个不可枚举域。六十进制纬度的值域名称是“纬度的六十进制度量”,其具体信息如下:
名称:纬度的六十进制度量。
定义:赤道以北或南角距离的所有六十进制的度量。
描述:赤道及以北的纬度度量值为正,以南为负。度的区间范围为0-90,分为0-59,秒也是0-59.
数据类型:纬度度量的数据类型为“字符数字型”,适当时,明确包括方向符号和小数点。
最大字符数:六十进制纬度的最大字段长度为13(+/-DDMMSS.SSSSS),容纳了秒小数点后5位。
格式:+/-DDMMSS到+/-DDMMSS.SSSSS
度量单位:六十进制单位。
精度:记录的小数点位数表明度量的精度。
5)表示类 在注册过程的该阶段,适于注册描述如何表示数据元的表示类。在元数据注册系统中,表示类是一项可选属性。每个表示类都需要标识符、名称、定义和相关语境及其他属性,如注册状态、管理状态和创建日期。可选属性(例如,解释性备注、来源)也可包含在表示类中。注册数据元时,表示类选自已被管理的表示类列表,并记录在该数据元中。常用的表示类示例如:日期、数据、文本、度量等[9]。从用于管理记录表示类中选择“度量”表示类用于该数据元。表示类限定词“六十进制”被赋予该数据元以使该数据元区别于其表示为“度”的其它数据元。
6)名称和标识符 一个数据元应至少赋予一个名称,并与该名称使用的相关语境关联。可以为一个学科、一个组织、一个特定计算机用语、一个数据库管理系统或其他目的所开发的一个名称。应该遵照一个特定名称相关语境的命名协定来开发每个名称。命名协定的描述应作为一个参考文件保存在元数据注册系统中。
在注册机构中注册的每个数据元都由一个唯一的标识符来标识,使之没有歧义。标识符不应带有关于该数据元的有用信息,例如,它可以是注册系统按序赋予的一个号码。如果数据元的属性发生改变,则生成该数据元一个新版本,并重新注册版本标识符(VI)。该数据元的IEDI(国际注册数据标识符)可被赋予{RAI}312345:1。
7)其他元数据属性 本文(第2部分-数据元属性)描述了其他必选和可选的数据元属性,除了前面所提的定义属性和标识属性,还有用于定义和描述数据元的管理、关系和其他混合属性(例如,主管联系、数据元解释性备注、数据元的起源等)。
目前可以记录的其他元数据属性有:
提供符合该数据元值域描述、数据类型和其他值域属性的数据值的一个示例;
数据元示例:+354 231和354 232.654 62
记录该数据元来源作为数据元被标识的标准;
数据元来源:ISO 6709-1983
记录提交数据元注册的组织为提交组织;
提交组织:信息采集办公室。
记录负责维护和更新数据元的组织或个人为数据元的主管联系方。
主管联系:地理信息系统主管。
其他管理元数据,例如数据元的创建日期等,进尽可能由系统自动记录或获取。
8)分类方案 在恰当的时候,也记录分类方案的属性。分类有助于增加在定义中不易包含的额外信息,组织注册系统的内容,并提供路径来支持更有意义的查询。
该数据元可以依据来源或下列的一个或多个分类方案来分类:
①标识一个或多个关键词,关键词是名称或主题的描述符,便于将相近的数据元分组以用于检索;
关键字:纬度、水平坐标、空间的
②用适于理解的近似数据元或一般主题对纬度六十进制度量进行分组;
主题组:地理点位置
③可以在此时标识一个或多个用于标识该数据元的现实世界对象;
对象类:纬度
9)注册和管理状态信息 起初,新注册的数据元仅有某些属性被记录。这样的数据元其注册状态指定为“候选”。当一个数据元所有的必选属性注册在注册系统中,但源数据的质量尚未验证,则注册状态为“已记录”。通过质量审查程序,一些数据元将被指定为“合格”的,另一些为“标准”的。“标准”的数据元是用于数据共享时所首选的数据元,使得被交换的数据有一致的表示和理解。该数据元并不预先成为纬度度量的首选表示,因为地理信息专家偏好于用度记录纬度和经度。因此,质量审查完成后,该数据元的注册状态为“已记录”。
自上而下的方法在很多情况下都很有用。这种方法与自下而上的方法相比虽然需要更多的上层支持,但有助于产生更加稳定一致的元数据。当提供给实施者的关于数据元的信息很完善,包括了数据元的特征及相互关系等知识时,可以使用自上而下的方法对数据元进行注册。实施者然后就可以确定和定义对象和特性,以此作为数据元概念的基础。自上而下的方法包括以下步骤:
1)确定要注册的数据元的分类/来源及相关环境。
2)确定数据元概念的基础,即对象类和特性。明确表述数据元概念,包括概念域以及它们代表的值含义。
3)定义和标识需要包含数据值的数据元。
4)确定表示数据值含义的值域及其允许值。
5)记录数据元的其他属性。
6)将数据元分类。
7)记录注册状态与管理状态信息。
在许多情况下,自上而下的方法很实用,尽管它会更需要“向前”尝试,自上而下的潜在好处是能够产生更稳定、更统一的元数据。
元数据注册系统是一个用于注册元数据的系统。可注册的元数据项有:数据元、数据集、数据元概念、值域、概念域、对象类、特性、术语等。文中主要研究了数据元的注册,提出了自下而上和自上而下两种数据元注册方法,并以数据元“维度六十进制度量”为例重点说明了自下而上的注册方法。两种方法均有各自的适用条件,需要用户在注册时,根据待注册数据元的相关信息进行选择。
[1]肖珑,赵亮.中文元数据概论与实例[M].北京:北京图书馆出版社,2007.
[2]郑巧英,王绍平,汪东坡.国家图书馆管理元数据规范和应用指南[M].北京:国家图书馆出版社,2010.
[3]中国标准化研究院,GB/T 18391.3-2001.信息技术数据元的规范与标准化第3部分:数据元的基本属性[S].1994.
[4]刘庆河,郝文宁,韩宪勇.基于数据元的数据交换规范研究[J].电脑知识与技术,2010,4(10):2309-2311.LIU Qing-he,HAO Wen-ning,HAN Xian-yong, etal.Research on the specification of data interchange base on dataelement[J].ComputerKnowledgeand Technology,2010,4(10):2309-2311.
[5]张英俊,谢斌红,郭勇义.元数据技术在科学数据共享平台中的应用[J].太原理工大学学报,2009,40(4):341-344.ZHANG Ying-jun,XIE Bin-hong, GUO Yong-yi.The application of metadata technology in scientific data sharing platform[J].Journal of Taiyuan University of Technology,2009,40(4):341-344.
[6]中国标准化研究,GB/T 18391.6-2001.信息技术 数据元的规范与标准化第6部分:数据元的注册[S].1997.
[7]ISO/IEC TR 20943-1.Information technology-Procedures for achieving metadata registry(MDR)content consistency-Part 1:Data elements[S].2003.
[8]ISO/IEC TR 20943-1.Information technology-Metadata registries [MDR]-Part3:Registry metamodel and basic attributes[S].2003.
[9]中国标准化研究院,GB/T 18391.5-2001.信息技术 数据元的规范与标准化第5部分:数据元的命名与标识原则[S].1995.