利用大数据技术开展政府数据治理的研究

2021-06-07 05:31顾鸣声
现代信息科技 2021年24期
关键词:数据治理大数据

摘  要:文章介绍对政府数据的研究,建立数据结构模型,探讨政府数据资源平台建设方向,结合政府情况,分析基础数据库和主题数据库建设,开展数据共享交换平台的应用研究。同时基于大数据平台开展社会公共部门数据的有效汇聚,聚焦政府数据资源存储、传输、处理、交换、使用、销毁各环节管理的全过程,保障数据的“时效性、真实性、可靠性、完整性、安全性和可用性”,促进数字政府建设。

关键词:政府信息;政府信息管理;信息生命周期;大数据;数据治理

中图分类号:TP391       文献标识码:A文章编号:2096-4706(2021)24-0104-04

Abstract: This paper introduces the research on government data, establishes the data structure model, discusses the construction direction of government data resource platform, combined with the government situation, analyzes the construction of basic database and theme database, and carries out the application research of data sharing and exchange platform. At the same time, based on the big data platform, it carries out the effective aggregation of social public sector data, focus on the whole process of government data resource storage, transmission, processing, exchange, use and destruction management, ensures the “timeliness, authenticity, reliability, integrity, security and availability” of data, and promotes the construction of digital government.

Keywords: government information; government information management; information lifecycle; big data; data governance

0  引  言

近些年我國逐步优化了数据安全相关政策法规,每一领域的数据治理工作也在有序开展,并且在很大程度上控制了收集、应用以及共享数据等环节的违法违章现象,每一行业均将数据安全管理作为了一项重点工作予以落实,从而显著提高了数据应用以及流通的合法性与规范性,慢慢形成了一个良性、健康的大数据发展氛围。在保障数据安全的前提下数据治理的核心就是提升数据的质量。要想有效的开展数据治理就必须明白数据质量的根本定义及分析开展数据治理要解决的问题[1-5]。

我们将用“目标导向”思维方式和“任务驱动”工作方法来共同探讨。首先“目标导向”的思维方式能让有清晰的核心目标,便于围绕着目标去分析并解决存在的问题。核心目标是数据治理,数据治理的核心是数据采集,数据采集的核心是数据有效性,数据有效性的核心是数据有效来源及数据有效处理,以上这些目标的实现高度依赖“数据质量”。如图1所示。根据我国现行相关规范要求,利用模板化数据、标准化元数据以及政务信息来达到科学编辑、数字化管理、关联运用以及高效共享数据的目的,进而切实有效地提高所有领域行业的数据管理质量以及资源利用率。其不单单能够有效共享与交换数据、实现应用创新的重要规则体制以及地层路基,而且还能够有效提高数据质量、防止出现数据混乱的现象,为数据创新与应用打下有力基础,同时亦是整合开放、交换以及信息资源目录体系的管理平台。本文设计的大数据平台总体设计架构如图1所示。

1  现有政府数据存在问题及数据质量重要性

资料显示我们收集很多数据,但是无效数据较多。例如地方政府数据开放平台上面就有很多数据,各部门手头也积累了很多工作数据,省域数据容量分布和有效数据集总量如图2所示。那么我们来分析现有数据特性,就会发现通用问题。具体内容有:

(1)滞后性严重[6]。当前开放平台上的数据大部分为静态数据,有很多数据集自上传之后就没有更新,滞后性严重。

(2)单一性突出。每种数据集只提供单一维度的数据,无法在单数据集内进行深入的数据价值探索。

(3)关联性不强。不同的数据集之间,没有直观的链接关系,无法通过多数据集的形式进行业务的融合分析,从而实现更多数据价值的探索与发现。

(4)容错率不高。数据错误包括数据类型错误、数据范围越界、数据不符合业务规定。

(5)数据不一致。包括名称不一致、标识不一致、编码不一致、引用不一致等。

以上统称“明数据”。还有一种比较特殊,给它定义为“暗数据”,尚未转换为数字格式的数据称为暗数据,它是尚未开发的巨大存储库,未来这些模拟数据库将被数字化并在迁移到云中,它们的利用,有利于进行预测分析决策。这些数据大量存在各行业的业务部门手中,属于工作累积数据。

1.1  现有数据存在的问题

广义上的数据问题可以划分为三类:

A类问题——传统的数据处理问题,它通过较低的采样率,即可实现较好的解决问题效果,不需要海量数据采集和分析,应用统计分析技术即可。

B类问题——典型的大数据问题,随着数据采样率的提升,解决问题的效果越来越好。这些问题在工程上可归结为“大数据问题”。

C类问题——介于A类问题和B类问题之间,其处理效果随着数据量的上升。有一定的提高,但当数据量达到一定规模后,其改善效果不明显。

1.2  数据质量的重要性

数据质量在不同的时期有着不同的定义。在几十年前,数据质量就是意味着数据的准确性,确切地说是数据的一致性、正确性、完整性和最小性这四个指标在信息系统总得到的满足程度。但是随着信息系统的发展,数据的来源越来越多样化,数据体量越来越大,数据涵盖的面也越来越广,对于数据质量的定义也才狭义走向了广义。准确性不再是衡量数据质量的唯一标准,一旦数据数量增多,格式也变得多元化,数据实用性将会直接关系到了数据质量。

数据质量在数据分析中起着至关重要的作用,数据的质量会在很大程度上关系到了数据参数以及其价值,在整合、共享以及开放数据时,数据质量成为影响数据共享、开放的重要问题。提升数据质量成为现阶段数据归集共享、开放工作的首要任务。

2  大数据采集和存储

2.1  大数据采集

设置采集数据功能模块,由以往数据库到大数据平台中来实现数据的动态采集以及批量采集。利用开源Sqoop组件(批量数据导入导出组件)实现大数据平台与关系型数据库、文件系统之间交换数据和文件,同时也可以将数据从关系型数据库或者文件服务器导入到大数据平台的HDFS/HBase中,或者反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。

2.2  大数据存储

政府工作过程中会形成海量结构化数据、半结构化数据,还有诸多非结构化数据,如音频资料以及图片等。在存储该类数据过程中,例如存储数据异构过程中,需要大数据基础平台运用分布式文件系统来存储整合所得的多元化数据信息,便于开展后期数据分析和使用。

在大数据平台中,部分数据读写频率高,需要快速读写,使用大容量磁盘容,数据在集群内迁移时容易出现IO瓶颈;而部分体量大,读写频率不高数据,使用小容量磁盘存储,需要占用大量的节点,增加项目TCO。使用混合存储的方式,由于数据分布不均匀,数据的读写性能得不到有效发挥。随着节点扩容,新旧服务器的磁盘容量配置不一致,大容量节点的计算能力相对较差,容易成为性能短板。

异构存储方案,通过制定存储策略,实现数据可以按“冷热”分别存储到不同的存储层,对需要快速读写的数据,选择配置如:SAS、SSD、内存之类的小容量、快速读写的计算密集型节点;对数据量大、使用频率不高的数据,可以选择如:SATA之类的大容量的存储密集型服务器节点。使同一个集群内,数据按不同容量的存储介质异构存储,无需限定配置统一规格的服务器,同时可以满足利旧的需求,有效降低成本。

2.3  数据建模

通过对已有的数据库进行逻辑建模,确定设计约束和命名规则,而后进行物化及落地,以数据建模模块中逻辑建模规则、数据字典、物化规则等为指导,根据各部门业务抽象成逻辑模型或者通过成熟物理模型反向生成逻辑模型, 逻辑建模阶段创建的逻辑模型对象根据提前设置的归集库规则物化生成物理模型对象。

3  以政府人口库为模板开展数据治理

按照数据建模规范要求,可以对人口基础信息数据进行梳理和建模,将分散在各部门业务过程中的各类信息资源进行有效识别并登记,建立完整、统一、标准的人口数据资源目录。以人口基础信息、社会活动、社会资源、社交关系、涉事涉法等维度为依据,建立三级人口目录,统一汇聚人口基本信息和人口扩展信息。通过人口基础数据目录梳理,把人口基础数据相关的数据项及数据属性等内容进行识别和统一,包含包含资源编码、资源名称、资源描述、资源类型、管理方式、隶属系统、共享方式、公开范围、更新周期、提供部门、交付方式等内容。

3.1  数据治理流程

通过制定数据治理的相关规则,构建人口基础库的数据治理业务流程,流程要覆盖人口库的数据抽取、集成、融合、质量评估等过程,贯穿全生命周期。

3.1.1  数据融合

3.1.1.1  多数据来源问题

在人口模型中,可能会出现某一个字段的来源不同,值也可能不一样的情况,如居住地址,可能来自多个表。这种情况下需要把多数据源的记录都需要记录下来。如图3所示。

3.1.1.2  数据融合处理

根据与数源部门共同制订的数据融合规则,对多来源数据进行比对分析,选择最权威、最准确的数据写入人口库。例如,常住人口表中有姓名、身份证、性别、地址等信息,社保卡发卡记录表中也有同样的信息,但是记录的内容稍有区别,而且还有可能各个数据表的标准不统一。常住人口表中的性别为[男],而发卡记录表中则不一致。通过图3中的3张表,可以融合成以性别代码维度、证件类型维度、地址代码维度为主要维度的一张新表,以这张新表为基础,可以进行多维的分析。

3.2  数据治理成果核查

在数据治理流程结束后对数据治理成果进行核查,对存在质量问题的数据进行发现及排查,并对问题进行评估分析,将问题数据进行质量溯源反馈,持续进行反馈跟踪,直至问题解决。

稽核问题发现之后,系统会自动触发工作流,根据分类走不同的问题处理工单,实现通过WEB、短信、邮件的方式与问题处理流程中各个角色的互动,统一对问题进行核实处理。质量问题清单一旦形成,那么系统会进行持续的问题跟踪,跟踪至数据的责任人,直至问题解决。

4  结  论

综上所述,目前各级政府缺少数据治理层面的制度规范,未建立规范的数据治理流程和有效的管理机制,但是建立完善的数据收集、整合、存储、治理、管理、服务等流程管理制度和数据规范势在必行。本文从人口库的建设为例,以点带面,研究开展政府层面的数据集中管理和大数据治理方面的技术实践。探讨以城市级大数据为核心,形成行业级二级主题数据库的整体大数据应用,切实有效的实现城市治理的数字化以及规范化。

参考文献:

[1] 耿晓军.阿里城市大脑1.0发布献礼世界城市发展 [J].物联网技术,2017,7(10):6+8.

[2] 杨洁.杭州城市治理模式新探索:实施全国首个城市数据大脑规划[N].中国建设报,2018-05-28.

[3] 牛强,夏源,牛雪蕊,等.智慧城市的大脑——智慧模型的概念、类型和作用 [J].上海城市规划,2018(1):40-43+62.

[4] 马玉灏.基于数据驱动方法建立城市交通的大脑 [J].通讯世界,2019,26(2):242-243.

[5]陈卫强.杭州城市大脑的实践与思考 [R/OL].(2019-09-08). http://theory.people.com.cn/n1/2019/0908/c40531-31342597.html.

[6] 劉叶婷,王春晓.“大数据”,新作为——“大数据”时代背景下政府作为模式转变的分析 [J].领导科学,2012(35):4-6.

作者简介:顾鸣声(1975—),男,汉族,黑龙江人,高级工程师,硕士研究生,研究方向:教育信息化、软件工程开发设计、网络安全管理以及大数据管理等。

猜你喜欢
数据治理大数据
高校数据融合路径及其治理框架的探讨
基于本体的企业运营数据治理
云端数据治理初探
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
大数据治理模型与治理成熟度评估研究
大数据时代城市治理:数据异化与数据治理