农村信息服务信息资源描述元数据研究

2021-03-08 11:15:06陈宝钢司海平虎晓红郑光
关键词:分类标准资源

陈宝钢,司海平,虎晓红,郑光

(河南农业大学信息与管理科学学院,河南郑州450046)

农村信息化是国家实现信息化发展战略的重要组成部分.农村信息服务涉及众多信息资源领域,内容丰富.如何将大量的、不同形式的、分散的信息资源进行整合,建立统一的农村信息服务信息资源的描述规范,实现数据资源间的有效共享是农村信息化建设过程中一个亟待解决的问题.目前已经有许多研究利用元数据作为工具来解决各类农业信息资源的共享和管理问题.刘彦花等[1]在分布式环境下将果业信息元数据内容体系划分为3个级别5个层次,给出了果业信息元数据的体系设计与模型表达.姚艳敏等[2]通过从地理信息和遥感数据元数据标准中抽取相关的元数据要素,同时增加特有的元数据内容构成草业资源信息元数据.陈宏等[3]将蔬菜种植元数据模型划分成7个一级信息描述分类及若干个二级分类,利用XML/XML Schema为技术手段,提出蔬菜种植元数据描述方案.谢惠芳等[4]提出了非文献型网络农业科技信息资源组织模式与发展原则,建立了非文献型网络农业科技信息分类标准体系和元数据标准体系.魏清凤等[5]基于农业网站的农业信息栏目和信息内容特征,编制了网络农业信息资源分类编码体系,建立了元数据字典并开发了自动编码著录系统.朱虹等[6]基于农产品在各个流通环节的实际需求,给出农产品流通信息元数据框架及其内容.崔运鹏等根据农业科技信息固有的特征,在继承都柏林核心元数据(Dublin Core,简称DC)[7]及中国科学院科学数据库核心元数据标准(SientificDataBase Core Metadata,简称SDBCM)[8]的基础上,利用扩展原则建立了描述农业科技信息资源的农业科技信息核心元数据标准[9-11].从当前来看,元数据技术已经在农业领域的许多信息资源开发和利用中进行了研究与应用,一些研究在农业信息资源分类和元数据描述方面也取得了进展.但是上述研究还没有深入涉及在信息资源具有多源异构特点的情况下,如何合理构建涉农信息资源的元数据描述规范问题.

信息资源的有效融合与共享是农村信息服务的基石.本文基于元数据技术理论,提出了农村信息服务信息资源描述元数据的制定方法和原则,规定了元数据标准的基本内容,并运用XML/XML Schema技术,实现了该元数据的描述方案,为推动农村信息服务信息资源的整合和共享提供有益的帮助.

1 农村信息服务信息资源分类及标识

1.1 信息资源分类

农村信息服务涉及的信息种类繁多,内容涉及面广.只有将信息资源按一定的规律进行分类和编码,才能对它们分类存储,并按类别和代码进行检索,以满足各种应用需求.考虑到农村信息服务信息资源的特性,通过分析现有的信息资源内容,按照《中华人民共和国国家标准信息分类和编码的基本原则与方法》[12]所描述的线分类法建立信息资源的分类体系.从构建信息服务目录、方便检索应用的角度出发,通过对信息资源的系统梳理,参考《中国图书分类法》[13],分类方案把农村信息服务涉及的信息资源划分为两层,如表1所示.

表1 农村信息服务信息资源分类及代码Tab.1 Classification and code of information resources in rural information service

按照信息的共性特点来分类第一层,如政策法规是国家政府部门及相关农业部门发布的农业政策、法规信息以及与农民切身利益相关的国家、地方政策.在第二层按照具体内容的区别来划分.如农业技术可以细分为种植业技术、畜牧业技术、植物保护技术、动物医学等.按照以上思路,农村信息服务涉及的信息资源可初步区分为政策法规、新闻通知、农业技术、科技教育、市场信息、农业工程、防疫检疫、质量安全、气象防灾、农作物情况、乡村旅游、农业单位、农业专家等13个一级分类,65个二级分类.

1.2 信息资源标识符

信息资源标识符是元数据中用来对信息资源进行唯一标识的元素.信息资源标识符的作用是在信息分类的基础上,将信息对象赋予具有一定规律的、易于人机识别处理的符号,从而可以确定信息资源的位置[14].

在本研究中,农村信息服务信息资源标识符编码由前段码(4位字母)和后段码(19位字母或数字)两部分组成.其中,前段码是产生或提供农村信息服务信息资源的单位代码.后段码是信息资源标识符中符号“/”之后的部分,用来对同一实体内部所管理或拥有的信息资源进行唯一标识.后码段由三部分构成.按顺序分别是8位的信息资源提交日期、1位的信息资源类型代码和10位的流水号.不同存储类型的信息资源编码按照文本(Text)、图形(Graph)、图像(Image)、音频(Audio)、视频(Video)、数据库(Database)及其他(Other),分别用代码 T、G、I、A、V、D、O 来表示.

农村信息服务信息资源标识符示例如下:HNND/20160816V0000000123.前段码“HNND”表示信息资源的提交单位是河南农业大学,“20160816”指的是信息资源提交的日期代码,“V”代表的是视频类型,“0000000123”表示这是顺序号为“0000000123”的数据.

2 农村信息服务信息资源描述元数据

2.1 信息资源及相关元数据标准分析

2.1.1 信息资源特点分析 经过分析调研,发现农村信息服务信息资源具有以下的特点:

(1)来源广泛.农村信息服务信息资源由多个不同部门的信息组成.各类信息存在技术接口、数据格式、输出规范等方面的区别.

(2)内容多样.农村信息服务信息资源涉及到农业相关的多个领域,既有政策法规、新闻通知、市场信息等内容,也有农业技术、质量安全等资源.信息资源内容差异性很大.

(3)数据异构.农村信息服务信息资源包含的数据具有多种的数据类型,包含文本、数据库、图像、视频等格式.信息资源缺乏统一的数据结构和完善的数据库结构标准.

实现数据共享需要将多源、异构和分散的农村信息服务信息资源,利用统一技术管理手段进行数据库的重组,采用元数据的规范化设定,才能达到可以通过网络平台提供查询等服务.而在一定意义上说,元数据标准抽象统一的程度与数据应用的便利性是相反的[15].信息资源包含大量的异构数据,元数据标准如果过于专业化、细节化,并不利于信息快速查询定位与便捷应用.对多源异构的农村信息服务信息资源整合的目标是能够提供信息服务和数据共享,因而为此所建立的信息资源描述元数据标准需要把信息对象的共性要素提取出来,从中选择合适的要素来构建符合通用标准要求的并且内容可扩展的元数据描述标准.

2.1.2 相关元数据标准 通过对国内外存在的信息资源描述相关的元数据标准体系的分析,有3种元数据标准对于本元数据方案的实现具有直接帮助作用.DCMI[16]推广的都柏林核心是能够最好满足通用性的元数据,而且其应用范围广泛.FGDC[17]的地理空间元数据内容标准[18]对科学数据集的描述最详尽,不仅能应用于地理数据的描述,而且也应用在许多其他领域.中科院的科学数据库核心元数据标准满足了各类科学数据库数据交互、资源整合、信息查询等应用功能的需求.

2.2 元数据元素属性及元素集

2.2.1 元数据元素属性 元数据元素属性指元数据元素采用的语义结构.对于农村信息服务信息资源描述元数据标准中的元数据实体或元数据元素而言,在结构特征上都具有一致性,可以通过9个属性对其进行描述和限制.即:中文名称,元数据元素或元数据实体的中文名称;定义,信息资源某个属性的解释和说明;英文名称,元素的英文名称;数据类型,元素所属数据类型,包括字符串、数值型、日期型、二进制型、布尔型等,元数据实体的类型为复合型;值域,元数据元素可以取值的范围;缩写名,元数据的英文缩写名称;约束/条件,说明一个元数据是否应当总是在元数据中选用或有时选用,包括必选、一定条件下必选和可选三种;最大出现次数,元数据在实际使用时可能重复出现的最大次数;备注,元数据进一步的补充说明.

2.2.2 元数据元素集 由于信息资源涉及的范畴非常广泛,所以元数据元素的选择必须考虑多样性的特点,选择信息资源的共性要素作为元数据标准中的元素集.元数据元素的选择和确定参考了不同的元数据标准进行,选取与特定类型事件无关的要素作为元数据元素的候选对象.在本文中元数据元素集中的信息资源标识符、信息资源名称、日期、语种参考了都柏林核心集的标识符、题名、日期、语种,而关键字、摘要、类别、格式、信息资源链接地址参考了科学数据库核心元数据标准定义的关键词、简介、数据分类、数据格式、URL.元数据元素集的具体构成见表2.

表2 农村信息服务信息资源描述元数据元素集Tab.2 Metadata element set of information resources description in rural information service

农村信息服务信息资源描述元数据由8个元数据元素和4个元数据实体构成,共12个元数据元素或实体.其中有9个元数据项用“M”标明,3个元数据项用“O”标明.“M”,“O”分别代表约束/条件中的Mandatory(必选的),Optional(可选的).

2.3 元数据模式与应用实例

2.3.1 基于XML Schema的元数据模式 XML是Web上表示结构化信息的一种标准文本格式.XML格式文件便于网络传输、交互与跨系统、跨平台数据共享,是组织元数据内容信息的最佳选择.XML Schema用于定义XML文档中使用的元素、属性和数据类型,是XML环境下首选的数据建模工具.使用XML和XML Schema著录元数据信息首先用XML Schema规定好元数据模式,然后根据此模式生成对应的XSD文件,根据XSD文件定义的规则填写元数据元素和属性对应的具体数据,生成XML文档.

XML和XML Schema的组合运用,能很好地适应元数据的类别划分,可以准确地对其完成归类和描述.本文采用XMLSpy软件来实现农村信息服务信息资源描述元数据的XML schema模式并生成其XSD文件.图1描述了农村信息服务信息资源描述元数据的XML Schema模式.图中显示了农村信息服务信息资源描述元数据的树形结构,以实线框表示此元数据项是必需的,以虚线框表示此元数据项是可选的.若实线框下方标有1..|,表示该元数据项可出现任意多次,但至少出现一次.

图1 农村信息服务信息资源描述元数据的XML Schema描述模型Fig.1 XML schema model of information resources description metadata in rural information service

2.3.2 元数据描述实例 在XML Schema产生的元数据模式的基础上,可以生成包含具体信息资源元数据内容的XML数据文件.下面是根据已建立的元数据模式的信息描述规则,以河南省1960—2010年自然灾害数据为例生成的XML元数据描述信息文件.资源具体内容见图2.

图2 基于XML的元数据描述实例Fig.2 Metadata description instance based on XML

该资源的内容如下:信息资源标识符(resId)为“HNND/20150326D0000001758”的信息资源名称(resTitle)是“河南省 1960-2010年自然灾害数据”,关键字(keyword)是“自然灾害数据”,摘要(abstract)是“1960年到2010年间河南省内各种自然灾害的具体情况和损失情况.”信息资源类别(ResCat)的类别名称(catName)是“灾害历史数据”,类别代码(catCode)是“0905”,从属平台(platfName)“无”,责任者(RespParty)的责任者名称(respName)是“河南农业大学”,责任者联系地址(respAdd)是“郑州市金水区文化路 95 号”,责任者联系电话(respPhone)是“0371-56990030”,责任者电子邮件(respEmail)是“xg56990030@163.com”,访问限制(accessConst)是“1”,语种(lanName)是“zh”,日期(Date)中发布日期(pubDate)是“2015-5-10”,最新修改日期(upDate)是“2015-5-10”,信息资源链接地址(phyAdd)是“http://xxx.xxx.xxx.xx”,格式(Format)中的格式类型(forType)是“数据库”,格式描述(forDesp)是“MDB”,文件大小(fileSize)是“182MB”.下划线标注的文字是元数据元素的中文名称和英文缩写,双引号内的内容为各元数据元素对应的属性取值.

3 结论与讨论

为提高多源异构农村信息服务信息资源的利用率和共享程度,本文基于元数据理论,提出了农村信息服务信息资源描述元数据标准的制定方法与原则,完成了农村信息服务信息资源的分类和信息资源标识符的定义,规定了元数据标准的元素属性、元素来源和基本结构,并利用XML和XML Schema技术实现农村信息服务信息资源描述元数据规范的XML信息描述.该标准的建立能够从以下几个方面为目前农村信息服务的信息资源建设和整合提供支持:

(1)资源描述.对农村信息服务包含的信息资源的内容、属性、位置进行详细、全面地描述,便于信息对象的存取与利用.

(2)资源管理.能够提供数据分类、数据标识、数据内容等方面的信息,便于数据的组织和管理.

(3)交换共享.通过分布式网络系统,实现数据的高效连接,帮助用户快速地找到特定应用数据,也可以为元数据或数据集的实时更新提供高效的方式与途径.

提升农村信息服务水平,加快推进农村信息化是实现农业现代化的必由之路.多源异构农村信息服务信息资源的整合和共享是一项复杂的系统工程,为使元数据能够真正实现信息资源的深层次共享和互操作,还需要在应用实践中进一步检验农村信息服务信息资源描述元数据标准的可适应性和可扩展性,建立完善的元数据标准体系,并解决元数据的自动提取、元数据与数据库一致性维护等问题.

猜你喜欢
分类标准资源
2022 年3 月实施的工程建设标准
基础教育资源展示
分类算一算
一样的资源,不一样的收获
分类讨论求坐标
忠诚的标准
当代陕西(2019年8期)2019-05-09 02:22:48
美还是丑?
资源回收
数据分析中的分类讨论
教你一招:数的分类