史进
(云赛智联股份有限公司,上海 201108)
公共数据是指国家机关、事业单位经依法授权具有管理公共事务职能的组织以及供水、供电、供气、公共交通等提供公共服务的组织(以下统称公共管理和服务机构),在履行公共管理和服务职责过程中收集和产生的数据。如何统筹规划、合理管理公共数据资源,让公共数据通过合法合规的途径释放价值成为发展大数据产业、驱动数字经济增长的关键所在。
随着大数据平台、“城市大脑”等大平台的建设在各地开展,国内大多省市均建立了政务数据中心统一管理公共数据的归集、治理、共享和开放,如上海市大数据中心、山东省大数据局。但由于公共数据资产管理体系的理论研究起步较晚,政务数据中心在管理公共数据方面仍存在诸多问题,目前尚缺乏针对政务数据中心的公共数据资产管理体系的相关研究。
在政务数据中心建设研究方面,学者多聚焦于建设政务数据中心的技术平台,如政务云平台、数据共享交换平台等,对归集、共享等管理制度、流程的研究相对较少。如桑菁华[1]提出,政务数据中心主要建设内容包含云计算系统建设、云存储系统建设以及云管理平台建设。赵睿[2]提出,政务大数据中心作为集中统一的政务数据存储、管理、分析、应用的综合性平台,主要分为基础数据仓库、基础数据管控平台和大数据分析应用平台3个层次。徐海明[3]提出,政务大数据中心总体架构主要包括系统架构、应用架构、管理架构和安全架构4个主要方面,并且使用数据融合关键技术、业务融合关键技术等解决数据处理和归集的问题。喻健[4]提出构建数据中心需要预备足够备份冗余和升级空间,采用关系型数据库结合大规模并行架构MPP的计算集群,提供共享域内交换节点之间的数据和文件自动交换服务的数据交换引擎。关春[5]提出,为提升电子政务数据中心数据管理能力,需要提高数据交换管理能力,建立数据入库错误反馈机制,明确落实数据责任,实现数据共享使用审核流程化、项目运维流程规范化。
在公共数据资产的研究方面,学者主要聚焦于通过场景应用发挥公共数据资产的价值,对基础性数据资产的归集及治理工作缺乏相应研究。刘辰昀[6]提出自然人公共数据资源体系建设,基于场景驱动,建成婚姻、死亡等系列专题库,最后进行多样化共享服务,实现数据属地返还。李爱军[7]提出大数据存在的现有资源利用率低、经费来源单一、数据安全体系不完善等难点,提出了建立政府专属机构,统一规划、重点建设,充分挖掘现有的数据资源的价值,建立健全相关安全保障体系。郭仲勇[8]提出基于区块链政府数据供应链的设计思路,给出联盟链服务平台、金融服务平台、电子签约服务平台的建设方案。陆莉[9]提出以我国地方政府开放平台的“公共安全”主题版块数据集为研究对象,运用内容分析法描述政府开放公共安全数据的现状,对公共安全数据开放现状进行了梳理,提出提升我国政府公共安全数据规范管理与开放共享的对策建议。
在公共数据资产化方面,学者主要聚焦于利用区块链或其他技术进行数据资产评级、数据资产评估的方向。潘泽铎[10]探究了数据资产管理系统业务流程和管理框架,从传统数据资产管理系统框架出发,引入了联机分析处理技术来搭建了数据资产去中心化的管理模式,并梳理了数据质量评估的流程,利用区块链和智能合约技术实现数据资产的溯源性和可确权的性质。刘辰昀[11]提出构建公共数据资产评级模型,可实现资产盘点、资产识别、资产探查、资产标签、资产称重的功能。南方电网借助大数据、区块链等技术,实现电网数据可信、安全传输,并制成了全国首张公共数据资产凭证(企业用电数据)[12]。平庆忠[13]提出利用GPT模型解释公共资源交易数据,并形成公共投资项目决策模型、公共服务优化模型和公共服务创新模型。
政务数据中心尚未形成公共数据资产管理体系,导致存在数据资源情况不明、数据质量无法达标、数据价值有待挖掘等问题。
由于缺乏顶层规划设计,各部门应用系统并未按照统一标准进行建设,导致政府对下属部门的公共数据资源情况不了解,各部门出于自身考量,仅将部分数据上报至数据中心,为后续的数据应用以及数据共享交换带来极大困难。
缺乏规范化的数据编目、数据质量管理标准及流程,导致公共数据质量较低,存在大量数据遗漏、数据错误的情况,为数据应用带来极大的局限性。而且数据并未进行有效的分级分类管理,导致存在巨大的数据安全风险隐患。
由于现阶段政务数据中心的主要任务是数据归集,缺乏对数据资产价值的挖掘,也无法利用数据分析降低政府部门整体的运营成本,提升数字政府的管理水平。
针对以上3个问题,设计了公共数据资产管理体系,包含公共数据资源盘点、公共数据资产化及公共数据资产评估三方面,如图1所示。公共数据资源盘点包括数据模板管理和数据归集管理。通过数据资源盘点,政府对下属部门的数据资源的数量、种类可做到“心中有数”。公共数据资产化的流程为数据资源编目、数据资产分级分类、数据资产标签管理和数据质量管理。数据资产化使数据资产便于被查找、共享及融合开发。公共数据资产评估通过构建评估指标,通过数据资产价值评估,可使数据资产的价值被量化,以便于授权运营或数据交易,挖掘数据要素价值。
图1 公共数据资产管理体系
公共数据资源盘点的核心在于管理数据模板及归集的数据。通过数据模板管理确定公共数据的类型及不同类型数据的关联结构,通过数据归集管理进行数据的一数一源管理和同类归并。
1.数据模板管理
数据可分为结构化数据和非结构化数据,数据模板管理也应针对这两种类型,结构化数据包括以各类数据库表形式保存的数据,非结构化数据指PDF/WORD文档、图片、CAD图等非结构化形式的数据。
(1)结构化数据管理:针对结构化数据,管理流程为梳理业务部门的需求、建立数据表的命名规则、梳理业务系统表、绘制关联ER图、确定表中字段含义。如图2所示。
图2 结构化数据管理流程
(2)非结构化数据管理:针对非结构化数据,如文档、图片数据,需要梳理非结构化数据存储的关键信息,指定存放位置、文件编写人、文件编写部门、文件摘要等命名规范。
2.数据归集管理
数据归集管理的核心在于进行“一数一源”管理和同义项归并,应遵循一套数据仅有一个来源的原则,如身份证号数据应来自公安部门的户籍处室。同义项归并须对多个部门针对同一对象而名称不同的数据做归并处理。如在不同系统中,民族的填写可能有“苗族”“苗”“miao”等多种数据,可通过代码映射的方式进行同一项归并。
1.数据资源编目
(1)元数据管理:元数据是描述数据的数据。常见的元数据包括数据名称、摘要、存储位置、字段类型、字段长度等,见表1。元数据管理应包括元模型设计、数据源配置管理、设置采集任务、采集元数据等步骤。
表1 元数据示例
(2)资源目录管理:通过对公共数据进行编目,可以清晰了解部门数据资产的总览,通过统一的目录视图多维地展现资产的分布和关联关系,对数据资产进行全生命周期和规范化地管控。
资源目录管理的流程一般为目录编制、目录报送、目录审核、目录发布和目录维护(图3)。目录编制须按照《政务信息资源目录编制指南(试行)》[17]要求,确定类、项、目、细目等类目,编制部门政务信息资源的目录。资源目录编制内容模板见表2,包含目录名称、目录类型、资源摘要、资产提供方名称、应用系统名称、业务事项名称、共享属性、共享条件、发布日期、关联数据表等核心数据。目录报送是由数据中心对资源目录进行复核,审查后,向上级部门进行报送。目录审核是由主管部门针对报送的目录进行汇总审核,如发现不符合要求会退回对目录进行整改。目录发布是指将已编制的目录发布上传至系统中,所有平台使用方均可见相关目录。目录维护是指数据中心对所有资产目录代码的分配、管理、使用以及维护更新等日常工作。
表2 资产目录编制内容模板(示例)
图3 资源目录管理流程
2.数据资产分级分类
(1)资产分类管理:资产分类管理的核心在于从主体、业务活动等维度构建分类模型,目前常用的方法为线分类法、面分类法和混合分类法。线分类法将分类对象按选定的若干个属性或特征,逐次分为若干层级,每个层级又分为若干类别。同一分支下,同层级类别之间构成并列关系,不同层级类别之间构成隶属关系。面分类法将选定的分类对象依据其本身固有的各种属性或特征,分成相互之间没有隶属关系即彼此独立的面,每个面中都包含了一组类别。混合分类法将线分类法和面分类法组合使用。不同的分类都有对应的编码规则。
如针对公共数据中涉及法人经营管理的数据采用混合分类法,按照主体类型、注册类型、属性类型以及共享类型进行分类,如图4所示。
图4 法人经营数据资源分类示例
(2)资产分级管理:为满足数据合规性及数据资产运营需求,需对公共数据进行资产分级管理,分级管理应遵循省市政府的需求及《中华人民共和国数据安全法》的相关内容,以《重庆市公共数据分类分级指南2.0》为例,可分为4个等级,见表3。
表3 数据资产安全分级等级示例
3.数据资产标签管理
数据标签管理的作用是在业务层面上能够快速查询、展示、分析各类归集数据。数据资产标签管理包含标签开发和标签库管理两大类,具体流程如图5所示。
图5 数据资产标签管理流程
数据质量管理是保障高质量数据、推动数据流通的前提。数据质量管理一般检核数据规范性、完整性、有效性和时效性方面的质量。如数据规范性检核数据的主键、时间戳等信息是否完整。数据完整性校验是否包含空数据等。数据有效性校验数据是否在业务指定的值域范围之内,对出现的异常数据进行告警,如人的年龄为300岁,身份证号为13位等。
使用数据会产生价值,但如何对公共数据的价值进行评估尤为困难。可选取数据,质量,效益等评价指标,对数据资产进行全面的分析,确定数据资产的等级,为公共数据流通准备高质量的数据资产。公共数据资产评估的流程如图6所示。
图6 数据资产评估流程
1.评估指标制定
(1)触摸法:用手摸,粗的是 N a2CO3,细的是N aH CO3(N a2CO3为白色粉末或细粒, N aH CO3为白色细小晶体);
数据资产评估指标体系的设计应该遵循三项标准:一是内在逻辑一致性,指大数据中心的数据资产评估指标,与公共数据评估的整体目标、当年任务目标一致;二是分类设计,由于指标体系的应用对象以及具体服务内容各不相同,需要针对不同的主体、服务内容设计不同的指标体系;三是问题导向,应重点关注数据资产获取成本以及产生的效益等方面。
如评估指标可包括获取成本、数据质量、应用效益3个方面。获取成本可包含建设成本、运维成本和使用成本。数据质量可包含数据的规范性、完整性、有效性、时效性。应用效益包含数据共享数量。详见表4。
表4 数据资产评估指标
2.评分规则制定
评分规则制定包括两个方面,分别是指标计算方法和评分规则。
指标计算方法按照行业标准和通用标准等制定,一般分为定量指标和定性指标。定性指标一般通过明确考核内容采集相关数据;定量指标可以准确数量定义、精确衡量并能设定绩效目标的考核指标,如数据完整性=表中非空字段数÷总字段数×100%。
评分规则可以衡量该项指标的计算结果是否符合基准,并通过公式进行量化,可采用目标值法和档次评分规则。目标值法是指设定某一量化值为目标值,超过或未达目标值则按一定的线性规律增减分。档次规则法是指划分多档次,如1、2、3、4、5这五个档次,仅可获得1、2、3、4、5这五个分数。采用目标值法计算较复杂,但评分准确度较高,经常被采用。
3.确认权重
权重的确认一般采用Delphi法或AHP法。Delphi法又称专家咨询法,通过几轮函询征求专家意见,然后通过汇总分析得到一个综合的结果。此种方法的优势在于可以简单快速地得到多位专家对于指标权重的综合观点。AHP法又称层次分析法,通过两两判断指标的重要性量化各指标权重。
4.评估实施
根据确定的评估指标、评分规则以及权重对评估范围内的指标进行取值、计算、评估工作,并形成最终的评估结果报告。
构建公共数据资产管理体系,可以打破部门“数据孤岛”,对政府所有部门公共数据资源进行盘点,形成公共数据资产地图。建立一套切实可行的数据质量监控体系,发现数据质量问题,打造相应的奖惩措施,实现数据资源向优质数据资产的转变。同时,可以推动将公共数据作为一种无形资产进行管理,为国家提出的数据入表提供数据基础,提升数据要素价值,促进数据的流通。