姜尚炎 周志军 曾秋琛
1.中国铁道科学研究院集团有限公司基础设施检测研究所;2.中国铁路南昌局集团有限公司工电检测所;3.中国铁路北京局集团有限公司北京西站
随着互联网、计算机等现代信息化技术的迅速发展,数字资源这一新型资源应运而生,其涉及到电子图书、电子会议论文、电子期刊等。当前国铁集团工务基础设施检测监测领域的数据量呈现指数型增长,数字资源已在其经营发展中发挥着至关重要的作用。而元数据这一数据形式,可对数字资源的内容、特征、属性等信息进行揭示;制定元数据标准并建设元数据模型,完成数据标准管理和数据质量管理工作,实现国家铁路数字工务全域数据管控。要想有效提高数字资源的建设效果与服务质量,就需要确保数字资源元数据的质量。但因为数字资源元数据涉及范围很广,且存在较高的重复率等,这就极易引发各种数据质量问题,难以确保数字资源的充分应用[1]。基于此,国铁集团下相关部门在建设检测监测数字资源的过程中,应积极构建高质量的元数据仓储,从而实现对检测监测数字资源元数据的质量管理。
元数据主要指对数据特征、彼此关系、有关操作进行描述与规定的一种数据集合。关于元数据数据管理具体涉及到几个方面:(1)元数据的细粒化管理,即把数据库中的数字资源细致地划分成单册、单图等底层单元体,且依据相关规范来对各个计算单位赋予标准化的标志,用户只需通过相关系统即可及时获取到相应的信息,而管理人员也可通过对数据库的精细化对比与管理,即可了解到用户的实际使用情况,以此来对资源采购内容进行科学调整,确保数字资源得到更加高效的应用[2];(2)采购协议的保障,目前用户对数据资源的服务需求更加地精细化,传统以“库”为单位的粗放型数据库管理模式已难以适应这一需求,所需各企业事业单位在数字化资源管理过程中,必须积极寻求更加精准便捷的数据库管理模式;(3)全周期监管与数据采集,即把数字资源管理细分到篇章单位个体以后,可借助动态监管的方式,对过期、无效、授权有问题、不正确的数据进行定期筛选,对于无法使用的数据应及时进行删除或是下架处理,以此来确保单位数据资源的整体质量[3]。
元数据,既是数字信息组织的前提条件,也是关于数据与相关特征的结构化信息,对于国铁集团工务基础设施检测监测的业务发展而言,元数据的质量管理是非常重要的一项管理工作。具体需求体现为以下几点:
深入分析其特点,从中能够发现相关信息主要包含几方面特点:(1)内容信息,关于题目名称、分类等方面的信息;(2)属性信息,依照属性差异,可将之分为数字资源类、资源类等;(3)定位信息,提供对应的链接,用户能够通过此查询数字资源的内容;(4)关联关系,即揭示数字资源和对应资源、数据库与对应系统的关联性;(5)历史沿革,即对数字资源的发展变化加以详细描述。
现阶段,大多数数字资源的管理模式依然是以单位数据库为单位,该模式无法科学合理的掌握单位或是机构的单个数字资源的具体情况。元数据现已能够替代“数字资源”,对国铁集团的检测监测数据而言,元数据即能够对所有单数据进行管理,还能够对基于单位资源而衍生出的集合式数字资源的各个应用环节进行管理,包括:访问控制、访问统计、用户操作、评价与引用等[4]。
数字资源元数据可在一定程度上实现数字资源的多种应用,包括:资源共享、资源检索、资源评价等。借助高质量的元数据,有利于用户更加准确且及时的获取到所需的数字资源内容,而低质量的元数据,往往会造成信息获取过程中发生过多的、重复的、错误的、不相符的内容,进而大大降低数字资源的利用效果。现如今,数字资源元数据质量虽然有一定程度的提升,然而依然存在诸多问题,如:对于资源发现系统的应用,该系统作为一种立足于元数据仓储的资源整合系统,因为系统数据取得渠道丰富多样、技术人员综合素质有待提升等问题,可能使得相关使用机构或是单位,存在一定的元数据质量问题[5]。国铁集团下检测监测相关部门为能够更好地适应新时代发展的需求,实现长足发展,需要注重元数据的发展,积极组建一支高素质的元数据工作队伍,从而更加深入地探究如何提高数据资源元数据质量管理的方法与策略,从而有效提高自身的信息服务质量,确保数据资源得到更加充分的应用。
数据资源元数据质量问题具体分为几点:(1)数据不正确。即在数字资源元数据应用过程中,并未严格按照国际、国内及行业的相关规格与标准进行应用,这就造成数据的内容、格式等方面有误,从而导致无数据无法被转换,或在完成转换后数据出现错误;(2)数据不完整。即数据信息存在着较多缺损、遗漏;(3)数据失效。该问题会导致元数据不能被利用,而出现这一问题的主要原因为:元数据所对应的数据资源实际上并没有被机构或是单位订购,由于电子期刊停刊而导致相关网络失效,元数据中的网络链接地址不正确等;(4)数据重复。很多数据库都存在多次收录数字资源的情况,造成资源重复。
造成数据资源元数据产生质量问题的原因,具体分为几点:(1)数据来源。元数据的获取途径主要有:数据库商或是代理商、数据库管理后台,而这也使得元数据来源比较多元化。因为不同来源数据所依据的著录规范与要求不一致,这就导致数据格式等方面存在不同;(2)数据处理。对数据处理缺乏重视,使得在对之进行存储之前,没有结合各自的具体情况与特点来加以恰当处理,如:仅进行简单处理就导入元数据仓储之中,或是设定合适的参数加以数据归并、去重、筛选,进而导致大量数据重复、不准确等问题;(3)不稳定性。数字资源可能会出现停止使用、变更等状况。若数据资源出现改变,没有及时更新,将会引发较多数据不统一问题,对应用造成不良影响[6]。
对于数字资源元数据而言,其具备一定的生命周期,基于数字资源的特征与发展变化、数据处理方式,可将其生命周期划分成几个阶段:(1)规划。在总体层面上,对数据质量需求进行全面分析,提出相应的目标,明确规范与要求,且对元数据在各个生命周期中的有效管理进行科学规划;(2)创建。采取多种途径来获取数字资源元数据;(3)收集。采用多种方式与途径来收集现成的数字资源元数据;(4)处理。在元数据导入数据仓储之前,应恰当处理数据,确保满足相关质量要求;(5)装载。在数据仓储中导入已处理过的元数据;(6)维护。对上一阶段的元数据加以质量管理,如:结合数字资源的变化来对元数据进行及时更新,并提出相关规范来对问题数据集进行筛选等;(7)使用。借助资源检索、资源获取等方式来发挥元数据的作用;(8)删除。若数字资源出现变更、替换等情况时,需要及时删除已失效的数字资源,且做好相应的记录。
对于数字资源元数据而言,其相关影响要素有几个方面:(1)元数据。其作为数据资源元数据质量管理的分析对象,需要以元数据为核心,来开展全部的质量管理活动,只有确保元数据的高质量,才能够有效降低质量管理的难度;(2)人员。数字资源元数据质量管理活动的开展,需要组建一支高素质的管理队伍,不仅要求不同专业背景的人才,还需要具备不同专业技能的人才,如:数据管理人员、数据处理人员、数据分析人员;(3)流程。数字资源元数据质量管理涉及到多个环节,如:数据格式转换、数据更新等,要想确保整个质量管理活动的顺利开展,就必须合理明确相关质量管理流程;(4)技术。涉及到数据格式转换工具、网址有效性检测软件、问题数据过滤系统等。
关于数字资源的元数据质量管理活动,具体的流程包括:(1)发现问题。即通过相应的软件或是工具来对各项数据进行全面监测与审核,及时发现问题;(2)分析数据质量。结合相关规范和要求,来分析数据质量与业务需求存在的差异性,判断不良数据可能产生的不利影响等;(3)源端修正问题。若问题责任在于数据源机构,则由该机构负责修正;(4)修正当前问题。即结合相关规则来对代码进行准确编写,完成数据修改;(5)预防未来问题。对未来数字资源应用中可能出现的变化进行提前预测,从而采取对应的措施,避免今后花费更多的成本去维护数据;(6)测试。即利用服务器来对全部质量管理活动进行测试,找出问题;(7)实施。在正式服务器中开展质量管理工作;(8)审核。结合相关规范和要求来对各数据问题是否得到有效解决进行严格核查;(9)改进。对质量管理流程进行总结归纳,充分分析已出现的问题,并不断改进质量管理方法,从而有效提高元数据质量。
具体到对国铁集团工务基础设施检测监测数字资源的元数据管理方式,有几种管理策略:(1)选择科学的管理模式。根据业务特点,可以选择集中与分散相结合的管理模式,在统一性管理过程中,根据数据的实际情况,对其采取针对性的管理,从而提升管理的科学性;(2)选取科学的管理策略。由于元数据质量管理中需要对众多的数据进行批处理操作,而在数据仓储中导入元数据后再实施批处理时,存在一定的操作风险,还会增大系统运行压力,故而需在元数据入库前就采用批处理方式,且需要明确不同类型数据的处理规范与要求,从而确保质量管理的效果[7];而面对多来源重复的元数据,应做好筛除与去重工作,然后从所有数据中选出质量最好的元数据,将其作为主记录,并把其他来源重复数据中区别于主记录但有价值的部分并入主记录中,还需对数据的来源、对应访问网址与数据库收录情况等进行详细标注。
针对国铁集团工务基础设施检测监测领域,已制定了轨道元数据标准初稿,实现了系统元数据、业务元数据、过程元数据的统一。如图1所示:
图1 基础设施检测监测数据元数据标准Fig.1 Metadata standard for infrastructure inspection and monitoring data
业务元数据中包含了铁路组织机构数据、检测专业数据、检测对象数据、检测设备类型数据和检测项目数据。组织机构包含了国铁集团检测中心和十八个铁路局检测所;检测专业数据包含了铁路检测领域工务、电务、供电三大检测专业的数据;检测设备类型包含了移动检测、固定监测、人工检查的类型数据。
通过国铁集团工务基础设施检测监测元数据标准,规范了检测监测数据的元数据管理,如图2所示:
元数据管理规范了检测监测数据的数据组成、编码组成、名称类别、表单类型、表单值、数据最大长度和显示排序,可以对单条数据实现增删改查等功能。
综上所述,对于数字资源而言,元数据是关键的管理方式,也是重要的揭示手段。在信息化时代背景下,数字资源在各企业事业的管理活动中发挥着越来越重要的作用,但数字资源存在不稳定性,为确保其作用得到有效发挥,就亟需对数字资源元数据加以合理的质量管理。