周志凯 宋肖红
(杭州数政科技有限公司 浙江省杭州市 310012)
随着信息技术从IT 时代发展到DT 时代,信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源,2020年更是将数据明确列为第五大生产要素,与土地、劳动力、资本、技术等传统要素并列为要素之一。政府作为数据要素的最大拥有者,推进政务大数据的开放共享,提升社会数据资源价值,无论是企业还是社会公众,都对其抱有很大的期待,这必然对政务大数据的数据质量和规范性,提出了更高的要求。如何利用现有的技术,探索建立统一的数据管理制度,提高数据质量和规范性,将是政务大数据治理面临的挑战。
近年来,为实现对政务数据资源的有效管理和应用,党和国家的政策文件中陆续对政府数据治理工作提出了一系列相关要求,各地政府也纷纷制定并发布政府数据治理的相关政策规范,2010年至今,全国31 个省(自治区、直辖市)共出台了125 份省级政府层面与政府数据治理直接相关的政策文件,截至2019年底,我国31 个省(自治区、直辖市)中,已有22 个省份设立专门的数据管理机构。
政府政策文件的支撑,专门数据管理机构的设立,为政务大数据治理奠定了良好的基础,基于政府各业务部门的数据,本研究从数据规范的通用性和数据业务属性的专有性出发,结合政府数据资源开放共享的需求,充分考虑到数据治理的通用性、易用性、扩展性,以及业务属性的针对性,构建以政府元数据集为纽带的通用规则集和业务规则集,实现了治理规则针对不同主题数据集的灵活适配,为政府治理、数字政府提供数据支撑。
基于政务大数据的特点和治理现状,各个业务部门的数据归集到大数据中心,形成海量、多源、多类型的政务大数据库,然而,由于政府各个业务部门业务规范和数据标准的不同,单一的数据治理规则已不满足政务大数据治理的需求,鉴于此,需要针对不同业务需求,个性化的定制治理规则,精准匹配,进行数据治理。
在构建政务大数据治理规则体系的过程中,首先,我们依托数据归集中心各业务部门的数据源,经过整合、关联、提取等一系列操作,形成部门元数据集合,并根据其业务属性、数据属性进行打标,集合形成分类元数据集,同一类别的元数据集包含相似的业务或数据属性,具有相似的数据治理需求;其次,根据各业务部门数据源数据库的存储要求,以及数据库通用的数据规范要求,去重、分析、整合,凝练出政务大数据可以通用的数据库规范集,数据库规范集普遍适用于各业务部门的数据治理需求,具有普适性;再次,根据各业务部门的业务规范,分类梳理,汇集成带有业务专用性的数据库可使用的业务规范集,业务规范集具有业务属性,针对性的适用于不同的业务数据项;最后,将分类元数据集、数据库规范集、业务规范集结合起来,互相关联,形成通用规则集和业务规则集,构成政务大数据治理规则中心,并可根据归集中心数据的增加和业务的扩充而扩充完善。政务大数据治理规则形成模式如图1所示。
图1:政务大数据治理规则形成模式
图2:政务大数据治理规则体系
政务大数据治理规则包含通用规则集和业务规则集,结合规则与元数据的关联关系集(即规则元数据集),共同形成政务大数据规则体系,可以灵活、快速、精准的对待治理的数据集进行配置,有针对性的进行数据治理。
2.2.1 通用规则集
图3:政务大数据治理规则的应用
通用规则集根据数据库的存储、使用等规范,整合提取具有普适性的规则集合而成,通用规则不包含明确的业务属性,普遍适用于各业务部门的数据项,一般从完整性、准确性、规范性、唯一性、一致性、关联性等六个方面出发,作用于所有数据项,保证数据项符合基础的治理规范,是最基础最广泛的治理规则集合。
完整性 Completeness:完整性主要校验数据项内容是否完整,即数据项是否缺失。包括对数据项的非空检验等规则。
准确性 Accuracy:准确性用于度量数据项内容是否准确,即数据项内容是否与其对应的客观实体的特征相一致。包括对数据项的数值异常检验、空格检验等规则。
规范性 Conformity:规范性关注数据项内容是否规范,即数据是否满足用户定义的规范或在一定的值域字典范围内。包括对数据项的格式规范检验、值域字典检验、编码规范检验等规则。
唯一性 Uniqueness:唯一性用于检查数据记录是否唯一,即数据是否存在重复记录。包括对数据记录的主键重复检验、整条记录重复检验等规则。
一致性 Consistency:一致性用于校核数据上下文是否一致,即数据表同一的不同属性值或不同记录的同一属性格式规范是否一致。包括对同一数据记录不同数据项的一致性检验、同一数据项不同记录的一致性检验等规则。
关联性 Integration:关联性用于校核关联数据是否符合规定,即有关联的不同数据源中同一实体的同一属性的值是否一致。包括数据记录关联数据项的存在检验、关联数据的一致性检验等规则。
2.2.2 业务规则集
业务规则集根据各个业务部门各个业务的业务规范分析梳理而成,业务规则具有较强的业务属性,一般与业务部门的具体业务数据项相关联,具有专项性。业务规则集根据元数据的属性分类,一般从编码、字典、长度、格式、数值范围、特殊字符、业务逻辑等七个方面分析梳理,基本涵盖各业务元数据数据治理的需求。
2.2.3 规则元数据集
规则元数据集根据各业务部门归集的数据整合、分类、提取而成,是通用规则集和业务规则集梳理的基础,是规则与数据项关联关系的集合,在数据治理流程中对实现规则与数据项精准配置起到关键作用。规则元数据集包含元数据项业务部门类别,元数据项业务属性分类,元数据项与通用规则、业务规则的关联关系等信息。
通用规则集、业务规则集构成政务大数据治理规则中心,与规则元数据集一起,形成政务大数据治理规则体系,具体如图2所示。
政务大数据治理规则体系在政务大数据治理中起关键作用,将政府各业务部门归集到大数据中心的数据,依据治理规则中心的规则组件和各主题数据标准中心质量标准的要求,灵活配置满足其需求的规则,并根据治理任务中心的治理任务和调度任务设置,对其执行离线或流式数据治理任务,从而得到符合数据规范的规范数据,政务大数据治理规则体系在政务大数据治理流程中的应用如图3所示。
基于政务大数据治理规则体系的治理规则中心,将通用性和个性化的规则整合分类,囊括了各个主题不同的数据治理需求,并可随着归集中心数据项的完善而扩充完善,实现治理规则的统一管理、灵活配置,并以其具备通用性、易用性、可扩展性,使数据治理规则配置有据可循,有据可依,统一协调,精准适配,避免了人为的不一致和重复开发,在政务大数据治理过程中作为不可或缺的一环,发挥着其重要作用。
随着数字政府的不断推进,政务大数据治理受到越来越多的关注,是政府治理、数字政府的基础,本文从政务大数据治理的现状出发,结合政务大数据的特点,依托信息技术和政务大数据治理的政策、机构基础,构建形成以政府元数据集为纽带的通用规则集和业务规则集,形成政务大数据治理规则体系,并应用于浙江省大数据治理平台,为全省“最多跑一次”改革提供了基础数据支撑服务。