公共数据资产评级方法研究
——以上海市公共数据实践为例

2022-08-17 11:44刘辰昀夏娟储昭武傅行晓
微型电脑应用 2022年7期
关键词:公共数据字段结构化

刘辰昀, 夏娟, 储昭武, 傅行晓*

(1. 上海市大数据中心, 上海 200072; 2. 上海计算机软件技术开发中心, 上海 200072)

0 引言

随着大数据、人工智能、物联网、5G等新一代信息技术的发展和应用,数据已成为新时代促进经济发展和技术创新的全新驱动力。政府作为数据的重要管理者,在数据的体量、种类和价值密度上占有绝对优势,积淀的数据开始发挥经济价值和社会价值。由于前期信息化建设的粗放性和孤立性,数据内容的低质化、数据体量的冗余度、数据形态的异构化,都日益成为数据价值高效释放的羁绊,严重束缚了数据赋能业务发展的动力释放。

数据资产是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等[1]。数据资产管理是充分发挥数据价值的必经之路。目前,数据资产管理的研究和实践还处于初级阶段,数据质量、资产评估等方面较为薄弱。本文将重点研究政府公共数据资源资产化管理,聚焦公共数据资产的数据特性、数据质量、数据安全、数据活性四个数据资产价值和建设成本、维护成本两个数据资产成本价值,创新提出公共数据资产评级方法和分级管理建议,全面提升政府数据资源利用率以及最大化释放数据价值。

1 数据管理现状

2009年,国际数据管理协会(DAMA国际,Data Management Association International)在发布的数据管理知识体系 DMBOK1.0中,将数据管理定义为规划、控制和提供数据资产,发挥数据资产的价值。国内方面,2019年《中共中央关于坚持和完善中国特色社会主义制度、推进国家治理体系和治理能力现代化若干重大问题的决定》首次提出了数据要素的概念,将数据与劳动、资本、土地、知识、技术、管理一并定义为生产要素,明确了数据作为资产的重要价值[2]。

由此可见,国内的数据资产管理和评估研究较为密集,但还未达到成熟可全面推广应用的阶段,围绕政府数据资产化和价值化,由于数据权属问题的不确定性和复杂性,研究主要聚焦共享开放中的价值实现,以满足数据利用主体的需求出发。但是,现阶段政府数据的建设和应用现状,数据价值的高效实现依赖于数据的有效管理,如何实现政府数据资产化管理是政务数据开发利用的前提保障,是政府数据价值释放的先决条件,是亟须且必须解决的首要问题。

2 公共数据资产评级模型

公共数据是指各级行政机关以及公共管理和服务职能的事业单位,在依法履职过程中获得的各类数据[3]。由于来源渠道广泛、流转复杂、易复制等特性,公共数据主体涉及数据产生者、数据存储者、数据管理者和数据利用者等多个主体,数据权属较难明确。同时,由于公共数据涉及多领域数据,通过共享开放的进行全局性关联性分析和应用,价值效益较社会、市场数据溢出效应显著[4]。

但公共数据不等于数据资产,中国资产评估协会制定的《资产评估专家指引第9号——数据资产评估》中指出数据资产是由特定主体合法拥有或者控制,能持续发挥作用并且能带来直接或者间接经济利益的数据资源[5]。

2.1 公共数据资产化路径

公共数据资源如何向公共数据资产有效的转化,根据上海市、区两级大数据资源平台的实践经验,首先要保护公共数据管理主体的合法权益,在明确数据提供和责任主体的基础上,进行公共数据的资产化,使其呈现出明显的可控、合规、量化等特征。本文归纳给出公共数据资产化的四个步骤(见图1):数据标准化、数据安全化、数据高质化、数据高值化[6]。

(1) 数据标准化

政府机构的前期信息化建设均以管理或业务需求为导向建立,缺乏整体规划,数据难以有效整合应用,数据存储、管理的成本较高。为了提升公共数据管理的能力,提高公共数据资产变现的能力,建立健全数据字典,完善数据资产标准,达成公共数据资产的标准共识,通过公共数据标准化实现公共数据资产化。

(2) 数据安全化

政府各职能部门掌握了社会、企业及个人的大量数据资源,有责任、有义务保证数据的隐私保护、防泄漏、防篡改等安全防护,因此对数据资源进行安全分级,采取合理化、针对性的安全技术和安全管理策略是公共数据资产化需要加强建设的核心能力之一。

(3) 数据高质化

公共数据在采集到应用的过程中,受系统来源繁杂、标准迥异、人为错误、技术故障等因素的影响,会涉及元数据管理、数据质量管理、数据资源目录管理等治理域的基础性建设工作,从数据层面实现数据资源整合汇聚和质量提升,通过跨系统的治理实现公共数据资产化。

(4) 数据高值化

公共数据在跨领域、跨部门、跨层级的应用过程中,可以通过分析统计建模计算等数据融合加工处理后,从原始数据中找到数据特征、挖掘潜在价值,形成辅助社会治理、城市运营经济发展、民生生活等高价值数据,通过技术手段实现公共数据资产化。

2.2 公共数据资产评级指标

基于公共数据资产的定义及属性,立足公共数据的建设和管理实践,本文将聚焦公共数据资产的可控制性和可量化性两个特征,从数据管理的角度出发,针对公共数据资产的标的价值和成本价值两个维度,制定一套明确的量化评级指标体系,科学有效的指导公共数据资产的评级。针对不同数据管理职能主体的公共数据资产现状,从公共数据自身价值的属性维度和成本投入的经济维度,选取了2个一级指标、4个二级指标、26个字段级三级指标,一、二级指标见表1。

表1 公共数据评级指标

2.3 公共数据资产评级模型

基于公共数据资产的可控制性、可量化性、可变现性和安全合规性“四性”,围绕公共数据资产化路径,辅以公共数据资产评级指标的定性和定量评价,构建公共数据资产评级模型[7](见图2),最终输出公共数据资产评定级别。

图2 公共数据资产评级模型

2.3.1 公共数据资产评级

公共数据资产分级管理是优化资源配置、实现精准管理、高效价值释放的重要路径。由于各级职能部门或服务机构的公共数据资源体量较大,基于字段级的公共数据资产评级工作任务较重,为确保公共数据资产评级有序、稳步、全面地推进,应建立明确的推进策略,分阶段、分步骤的开展。从公共数据资源的管理实践出发,建议三种推进路径:一是按系统为最小评级对象,围绕业务系统涉及的业务范围广度确定优先级;二是按照业务需求数据所在表为最小评级对象,业务需求高频度确定优先级;三是以业务部门为最小评级对象,围绕涉及业务系统的数量多少确定优先级。根据不同的工作要求,选定合适的推进策略,按照“资源盘点—资产识别—资产探查—资产标签—资产称重—资产定级—资产复评”的评级路径(见图3),全面摸清公共数据资产底数。

图3 公共数据资产评级流程

1) 资产盘点

按照业务、技术和管理的维度,基于三定方案或职能方案等文件规范,盘点各市级部门结构化、非结构化的所有数据资源及其分布情况。结构化数据资源包括:关系型数据库及非关系型数据的库表数据和TXT、CSV、XLS等文件信息;非结构化数据资源包括:图片、HTML、音视频等;数据资源分布情况主要包括数据的静态分布信息和动态流向信息。

2) 资产识别

结合公共数据资产化的路径和公共数据资产的标的价值,按字段级进行公共数据资产的识别,明确盘点对象的资产边界和管理范围。建议遵循以下三种方式展开数据资产识别活动。

(1) 从可控制性角度分析

一是根据三定方案、政策法规等文件明确为业务职能主体,通过该业务领域自建系统获取的结构化库表数源字段和非结构化数源资源,视为该组织的公共数据资产;二是通过市场调查、实验观察、访谈记录等方式获取的结构化库表数源字段和非结构化数源资源,视为该组织的公共数据资产。

(2) 从可量化性角度分析

一是有一定数据量的字段级数据资源的表级数据资源,或有占有存储空间的非结构化数据资源,视为该组织的公共数据资产;二是具有较高交换量、增长量、更新频率、使用频率的结构化库表数源字段和非结构化数源资源,视为该组织的公共数据资产。

(3) 从可变现性角度分析。

一是归集在本市、区两级大数据资源平台的基础库、综合库、专题库的数据,视为该组织的公共数据资产;二是经过技术部门和业务部门对源数据进行标准化的数据,视为该组织的公共数据资产;三是经过模型加工融合处理后的数据,视为该组织的公共数据资产;四是通过结构化处理的非结构化资源,视为该组织的公共数据资产。

3) 资产探查

结合资产识别结果明确的公共数据资产,对照公共数据资产标的价值的4个维度20个指标,按字段级对公共数据资产的标的价值情况深入探查,明确公共数据资产的职责来源、数据量、数据类型、数据质量、数据安全等级等指标的定量数值和定性描述。

4) 资产标签

在明确公共数据资产管理对象基础上,对照探查的数据资产标的价值结果,对公共数据资产进行分类,建立公共数据资产的标签,构建盘点清晰、直观、全局的公共数据资产状况。本文主要从数据特性(数源权属、数据内容)、数据安全、数据质量、更新频率、建设成本(数据融合、数据加工)五个方面将公共数据资产划分为可信资产、参考资产和问题资产三种类型标签。

可信资产:按顺序依次认定,数据质量高的数据资源—更新频率的数据资源—基础库、专题库的数据资源。

参考资产:按顺序依次认定,安全等级一级的数据资源—数据质量一般的数据资源—更新频率较低但业务主体职责范围的数据资源。

问题资产:不再权责范围内采集且数据质量较低的数据资源。

5) 资产称重

经过资产探查和资产标签后,对三类标签资产和总资产进行称重管理,鉴于现阶段的公共数据管理现状和公共数据质量管理的要求,本文设计了公共数据资产重量模型(简称PDW[P1],单位:cds立数方),分为结构化数据资源PDW[P1](以下简称SPDW[P1])和非结构化数据资源PDW[P1](以下简称NSPDW[P1])。SPDW[P1]由公共数据规模和公共数据完整性质量构成,其中,公共数据规模(简称PDS)是数据集合的数据量和字段数量的二维集合反映,公共数据完整性(以下简称PDQ-I)是公共数据实际规模的客观反映;NSPDW[P1]由占用存储资源的大小和数据资源类型构成,其中,数据资源类型WORD、EXCEL、HTML等文本资源值=1,图片、图层等平面图像类资源值=100,音频类资源值=1 000,视频类资源值=10 000。随着公共数据管理的发展和公共数据质量的不断提升,PDW将在多维空间不断叠加和优化,现阶段的SPDW[P1]和NSPDW[P1] 定义如下。

PDS=字段量*数据量;

PDQI=字段非空值数据量/(数据量*字段数量)

SPDW[P1]=lg(PDS*PDQI)

NSPDW[P1]=存储资源大小/数据类型值

PDS能够准确反映公共数据资产的资源体量越大,潜在的标的数据资产价值也较高;PDW能够综合公共数据资产的质量保障反映当前阶段的数据资产实际价值状态和需要投入的维护成本,PDQI越趋于1,维护成本越低,实际价值状态越接近标的价值,维护成本越低。可信数据资源、参考数据资源和问题数据资源分别称重后,可对已盘点的资产进入定级。

6) 资产定级

针对参与评级的数据对象,按照三类标签资产和总资产的称重结果、规模占比和数据完整性进行定级,分为黄金级、白银级、青铜级三个等级。通过资产定级管理,理清不同价值标签的公共数据资产底数,以便合理分配及优化经费、人力等资源配置,实现基于公共数据资产称重分级下的管理策略和管理制度。

7) 资产复评

围绕公共数据资产的定级全流程,数据资产分类标签的管理处于一个动态变化,数据资产会因为管理能力的提升或数据规模、时效性的增加而提升评级值。同时,随着公共数据管理能力的不断提升,公共数据资产重量模型也在演进发展,因此参与评级的数据对象应定期进行公共数据资产状况的复查,实施称重和定级工作。

2.3.2 公共数据资产分级管理

结合公共数据资产评级结果,对照公共数据资产评级指标,遵循“以最小成本实现管理最大化”的原则,聚焦数据质量、数据安全和数据应用,围绕黄金级、白银级、青铜级三级资产级别,制定分级管理的策略,明确不同等级、不同标签字段的管理重点、管理原则、管理内容和管理目标。通过分级管理的方式,促进数据资产整体质量的提升。

PSD(占比)PDWPDQI等级可信>参考且可信+参考>50%可信>参考可信<参考黄金级可信and参考>总资产黄金级可信or参考>总资产白银级可信<参考且可信+参考>50%可信>参考可信<参考可信and参考>总资产黄金级可信or参考>总资产白银级白银级可信>参考且可信+参考<50%可信and参考>问题白银级可信>问题>参考可信and参考>总资产白银级除以上情况青铜级

2.3.3 数据资产评级案例

结合公共数据资产评级流程的路径和方法,对本市法人登记注册信息表展开公共数据资产评级试点。

资源盘点:法人登记注册信息表为结构化库表数据资源,为市级大数据资源平台的法人综合库目录资源,截止2021年底,该表的涉及94个字段资源,可提供法人基本信息的共享和应用需求。

资产识别:按照资产识别四个要素,逐一进行字段的资产确认。根据第一个要素,该表中有25个字段经过三定方案是可被确认为资产,有20个字段通过采集且具有一定的业务含义被确认为资产;根据第二个要素,有13个字段属于通过采集且有一定的数据量,被确认为资产;根据第三个要素,有2个字段通过融合产生,被确认为资产;根据第四个要素,有2个字段具有一定的隐私安全属性,被确认为资产;此外,有5个字段(联系信息等)不具备四个要素特征被认定为非资产。最终94个字段有89个字段被确认为资产。

资产探查:本次探查聚焦资产称重和评级目标,重点对职责来源、数据量、数据质量(完整性)三个方面展开,最终有27个字段能确定来源部门,有31个字段数据质量较高,13个字段数据质量一般(含3个认定来源部门的字段),50个字段质量较低(含5个认定来源部门的字段)。

资产标签:根据资产识别和资产探查的结果,对照标签定义的顺序,最终33个字段被确认为可信资产(其中28个为三定职责认定字段,2个字段经融合处理且数据质量高,3个字段具有业务含义且数据质量高),30个参考字段(27个字段具有安全属性但级别不确定,3个字段具有业务含义但数据质量一般),26个问题字段。

资产称重:按照称重规则,最终计算得到公共数据资产的重量为总资产SPDW[P1]=8.13(cds),PDQI=0.466;可信SPDW[P1]=7.93(cds),PSD占比0.62,PDQI=0.808;参考SPDW[P1]=7.5(cds),PSD占比0.23,PDQI=0.325;问题SPDW[P1]=7.28(cds),PSD占比0.14,PDQI=0.218。

资产定级:对照评级规则,可信PSD >参考PSD,且可信PSD +参考PSD的占比大于1/2,可信SPDW>参考SPDW,三类标签的PDQI情况不再影响结果,确定法人登记表的资产等级为黄金级。

3 总结

本文从数据管理职能主体的数据控制权属角度出发,结合公共数据数源工程的研究成果,聚焦公共数据资产的数据特性、数据质量、数据安全、数据活性四个公共数据资产标的价值和建设成本、维护成本两个公共数据资产成本价值,构建公共数据资产评级模型和分级管理机制研究,能够有效地指导公共数据管理职能主体通过资产识别、资产分类、资产称重、资产评级等标准化流程,促进公共数据资产化和资产化管理。

猜你喜欢
公共数据字段结构化
公共数据授权运营机制探索
公共数据治理中的价值实现机制
带钩或不带钩选择方框批量自动换
公共数据归属政府的合理性及法律意义
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
浅谈台湾原版中文图书的编目经验
一体化建设城市大脑 公共数据开放“宁波样本”将实施