刘文立,陈士翀,刘文思,宣东海,江丽娜,沈子奇
(国家电网有限公司大数据中心,北京 100052)
数据是信息时代重要的基础性战略资源。数据要素如同农业时代的土地、劳动力,工业时代的技术、资本,成为推动数字经济发展的关键生产要素。2022年1月,国务院印发《“十四五”数字经济发展规划》,提出要“加快构建数据要素市场规则”“鼓励市场主体探索数据资产定价机制,推动形成数据资产目录,逐步完善数据定价体系”。同年12月,中共中央、国务院印发《关于构建数据基础制度更好发挥数据要素作用的意见》,提出建立“合规高效、场内外结合的数据要素流通和交易制度”等数据基础制度。数据资产评估是明确数据定价机制,激发市场主体活力,规范市场发展,加快培育数据要素市场的重要基础。
能源是国家的经济和社会发展的重要物质基础。随着能源行业的快速发展和信息化水平的提高,海量的能源数据被不断地产生和积累。能源数据产生于能源的生产、运输和消费三大过程,呈现出种类繁多、生产主体多样、变动周期差异等特点[1]。具体来讲,从区域上可以将能源数据分为省市县三级行政区域管理;从种类上可以将能源分为煤炭、石油、天然气、电力等;从业务上可分为能源供应、能源运输、能源消费、电力生产等方面。如何从海量的数据中发掘背后潜藏的信息,基于能源行业的数据特征,对能源数据进行科学、有效的评估和管理,进一步促进能源数据的要素化、资产化,是能源行业面临的一个重要问题。
该文基于对数据资产评估方法的前期研究[2],通过开展能源行业数据资产的特征分析,将数据质量、数据成本、数据应用等因素引入数据评价方法设计环节,形成一套可应用、可复制的能源数据评价方法,并选取典型能源数据资产化典型场景开展应用实践,可以为能源数据资产的价值评估提供重要支持和依据。
数据资产价值化路径是数据要素领域国内外学者的关注重点之一[3-5]。通过对数据的分析,张驰[6]认为数据资产的价值由内在价值和外在价值构成,影响因素包括数据质量、数据规模、可访问性、鲜活性、关联性、使用效果、价值密度、数据类型多样性、共享性、再生性;并形成五个维度(颗粒度、多维度、活性度、规模度、关联度)对数据资产内在价值进行衡量。马丹等[7]对国内数据资产核算发展面临的问题做了三个基本方面的归纳:一是数据资产定义难以界定,核算边界不清晰;二是数据资产的分类方式不统一;三是对数据资产核算方法的研究不完善,认为对数据资产核算方法的探讨应区别于普通无形资产。数据价值化研究,与数据的本质特征密切相关。康旗等[8]分析其一般特征,认为大数据资产应属于无形资产进行核算。阮咏华[9]基于财务视角,从数据资源的权属、成本、价值出发,认为常见无形资产类别不能涵盖所有的数据资产,应引入新的无形资产类别进行补充。刘琦等[10]认为大数据资产具有共享性、冗余性、用途多样性、时效性、无损耗性的特点,属于一种新型的无形资产,其价值与数据资产的取得成本、技术差异、价值密度差异、用途、类型等具体相关,并从其来源、主体的性质、所属产业、产权主体等方面进行分类。李静萍[11]认为由于数据资产具有特殊属性(包括复制成本接近于零、非排他性、规模性和异质性等),数据生产成本远低于数据内在价值,数据交易市场非常有限且未来收益不易估计,因此无形资产价值评估方法不适用于数据资产的价值核算。马丹等[7]给出了数据资产的统计原则和统计边界——包括时间原则、收益性原则、可交易性原则、质量原则,提出按照数据资产是否市场化对不同数据资产采用不同的估价模型。张驰[6]认为虽然大数据资产与无形资产有许多类似之处,但由于一些企业的数据资产价值庞大,且数据资产具有区别于无形资产的无限复制性等特征,无形资产科目可能并不能完整反映大数据资产的真实情况,建议大数据资产应区别于无形资产进行单独核算。崔静等[2]给出了数据评价与价值评估的基本框架及各过程的基本要求,划分了数据评价与价值评估,提出了数据评价与价值评估方法,形成了数据评价与价值评估实施总体框架,其中数据评价主要包括质量要素、成本要素与应用要素的评价,价值评估主要包括收益法、成本法与市场法的估值。综上所述,现有研究广泛开展了对数据资产特有属性以及评价影响因素的分析,但缺少行业维度的特征分析,缺少对核心因素或指标的量化计算。此外,开展基于既有标准以及实际数据产品的应用实践,能够为相关研究结论提供分析案例。
能源大数据主要包括煤炭、石油、电力、新能源、热力、水等能源行业生产、运输、运营和管理过程中产生的数据,以及宏观经济运行、生态环境、气象等能源行业密切相关的数据[1]。能源大数据分类的研究,包括分类方法、分类维度和分类体系等方面。其中分类维度研究与提取能源大数据特征、开展能源大数据资产评价方法构建紧密相关。能源大数据分类首先可根据其业务应用维度,按照数据产生的来源,包括数据产生的主体和数据的权属,进行分类。其核心分类要素包括能源生产消费环节、能源类型、业务类型等。按业务类型,能源数据划分为基础数据、运行数据、管理数据、双碳数据、指标数据和其他数据[1]。由于能源大数据的业务类型与数据利用场景,即能源数据资产的价值输出口,具有直接关联性,在能源数据资产评价方法构建中,该文将基于业务场景开展能源大数据特征分析。此外,也需按照常规数据的特征维度,包括数据规模、数据类型、数据质量、安全级别等对能源大数据进行分类。通过对能源大数据开展准确的分类,有助于开展能源大数据的多维特征分析,在能源数据资产评价工作中确定评价对象和评价方法。
能源行业与工业生产、人民生活息息相关。能源大数据既是生产、生活状态的反映,同时能够提供决策依据。能源数据资产特征分析,主要从技术特征和经济特征开展。从技术特征来看,能源数据资产作为数据资产评价对象,具有数据体量大、数据类型多、数据价值高等方面特征。例如,在数据价值方面,由于能源行业一般具有较长的产业链——例如一次能源的石油、煤炭以及二次能源的电力,更容易形成局部生态,通过上下游产业数据形成关联,促进数据价值产生倍增效应[12];基于能源大数据中心等协作平台,形成能源数据的跨域合作与整体综合利用,则实现了数据价值的进一步提升[13-14]。从经济特征来看,国内能源行业在股权和投资主体上,呈现国有资产占比高的特点,对于数据确权方面具有较高的影响。基于产权价值理论,能源数据资产的权属,可包括所有权、使用权、收益权、转让权等。数据资产权属一方面影响数据资产价值评估,另一方面影响数据资产的流通。数据资产价值评估是完成数据权属确定之后开展的评定过程,数据资产本身所具有的价值的体现也表现在数据权属明确之后的价值体现;数据流通之后带来的数据责任、数据安全问题无法追溯到权属主体,会降低数据资产的可流通性。此外,由于能源行业的特殊性质,对其生产、运营的安全性、稳定性要求严苛,其生产、消费等环节受到各类政策法规的严格监管,这对能源行业的数据安全合规使用提出了同等级别的要求,因此其经济特征也包括数据监管严格。
基于能源数据资产在行业视角下的技术、经济特征,分析得到与数据评价构建相关的关键影响因素。一是结合能源数据资产的价值、权属以及监管特征,其数据价值与应用场景具有关联性。上文将能源数据按业务类型进行了划分,不同业务类型数据的应用场景有显著区别。例如管理数据主要应用在服务企业管理现代化方面,运营数据则可以应用在构建客户服务相关场景上[15-16]。从应用场景出发,能够有效梳理能源数据资产的评估边界,确认数据资产的生存周期各个环节,确认成本评价涉及的成本项。此外,能源行业与社会、经济发展高度相关,相关企业履行社会责任要求较高。其数据资产价值输出,除在安全可控前提下流入数据要素市场外,对于支撑政府决策、服务社会经济发展有较多体现[17-18]。
因此,在能源数据资产应用评价方法构建中,应开展多维评价体系设计,既考虑既有经济价值和社会价值,也考虑应用趋势、应用风险等方面。二是基于能源数据资产在体量、类型的复杂度,其数据价值受数据质量影响程度高。数据质量是数据资产的基本属性,也是现有数据评价方法中的薄弱环节。能源数据的规模化采集多伴随原有生产、消费环节,采集成本相比各环节数据治理成本相对较小;此外,由于能源行业体量大,不同类型、不同企业的信息化水平以及数据治理能力都存在较大差异,这导致数据质量参差不齐,体现出将数据质量的量化评价纳入能源数据资产评价的必要性。数据质量涵盖维度较多,从应用场景出发,考虑能源数据业务中的数据质量规则,能够提升基于数据质量开展价值评估的准确性。
数据资产评估可分为数据评价与数据价值评估。图1是能源数据资产价值评估的全流程,主要包括前期评价范围的确定,以及数据评价和价值评估两个关键环节。该文探索开展能源数据评价方法的构建。基于能源数据资产体量大、价值多样等数据特点,以及数据质量等能源数据价值影响因素的分析,构建多维度评价体系。相关评价结果为后续能源数据价值评估环节的方法选择,以及相关价值影响因素的量化提供参考和依据。
图1 数据资产价值评估流程
能源数据成本评价,由数据评价人员通过对能源数据资产本身的表现形式,如数据集、数据产品等,从产生到评估基准日过程中涉及的各类成本项的归集,进行评价实施。能源数据成本项主要包括前期费用、建设成本、运维成本和间接成本等。基于能源数据应用场景,从数据资产生存周期管理的视角,对数据采集、数据汇聚、数据存储、数据开发、数据维护、数据安全等生存周期内发生的成本进行清查,见图2。成本要素所涉及相关数据获取方式包括现场调查、要求委评方提供、各类专项访谈等。获取的数据包括但不限于成本凭证等资料,并根据数据资产生存周期中发生的合理成本进行归集,甄别成本的合理性及完整性。
图2 数据成本评价项
能源数据应用评价通过对数据的衍生应用场景及应用成效的多维分析,进行评价实施。评价维度主要包括数据资产使用范围、使用场景、商业模式、供求关系、数据关联性以及应用风险等,见图3。应用要素所涉及相关数据采集方式为现场调查、要求委评方提供、进行高管访谈及各类专项访谈等。主要步骤包括:分析数据资产的使用范围,现场访谈待估数据资产可以应用的行业、领域和区域;了解数据资产的具体应用场景、盈利模式,若已形成收益可收集相关合同等资料;从供求角度了解数据资产的稀缺性,可以通过访谈以及市场相关的支撑资料分析数据资产的稀缺性;数据关联性上,重点通过访谈及实地勘察了解数据与用户之间逻辑关联匹配的程度、收益模式、数据和业务应用实现之间的关联匹配等;在风险因素上,通过访谈及查阅评估对象的相关资料了解评估对象在管理、流通、数据安全等方面的具体制度和采取的措施。
图3 数据应用评价收集项
数据成本与应用评价的主要目的是针对数据资产的数据本身进行所涉及成本的归集与拆分,并分析数据的成本因素和可应用市场,是进一步应用成本法或收益法对数据进行估值的前提条件。
从能源数据资产的特征分析可知,数据质量是数据价值的重要影响因素之一。在数据生存周期各环节,应用提升数据质量的相关举措,会增加应用成本法的数据资产的成本项目,提高数据资产成本。同时,数据质量的提高同步提升数据的价值。因此,基于收益法开展数据资产价值评估时,同样需合理利用数据质量评价的结果。数据质量评价是能源数据资产评估的一个重要环节,是针对数据本身的质量情况,通过相关方法计算得出分数。该文参照国家标准GB/T 36344-2018《信息技术 数据质量评价指标》[19]选取评价指标,对能源数据按照准确性、一致性、完整性、规范性、合理性等五个方面进行评价,并且根据能源数据高关联性的特点,创新性地提出合理性评价维度,构建二级指标对数据质量水平进行计算评定。并构建了数据资产价值发挥度与数据质量之间的联系函数。此外在评价过程中,本研究基于参数估计算法思路,设计了一种依据质量评价误差率计算所需最少数据样本量的方法。数据质量评价流程如图4所示。
图4 数据质量评价流程
3.3.1 数据质量的价值联系函数
将数据质量对数据资产的价值发挥程度,定义为一个[0,1]区间的量。其中,取值为0时表示数据质量过差导致无法发挥数据价值;取值为1时表示数据质量极高,能够发挥全部价值。考虑数据质量影响具备非线性特征——质量未达到一定水平时,其价值发挥能力都近似于0,以广泛应用于信息科学、控制科学等领域建模的Sigmoid函数[20-22]作为数据价值发挥度与数据质量之间的联系函数,对数据质量评价结果进行应用。令能源数据资产真实价值为yr,数据资产名义价值为yf,发挥度为t,数据质量为x,0 yr=yf*t,t=1/(1+e-(x-k)/10) (1) 3.3.2 数据质量评价范围确定及抽样方法 数据资产评估工作组依据对待评估对象的调研情况,确定评价的业务范围和数据范围。当待评价业务涉及数据总量过大时,采取数据抽样方法,提高评估可行性和执行效率。常见的抽样方法有随机抽样、分层抽样、系统抽样、整群抽样等。抽样方法的选取及抽样样本量的确定,需参考业务性质、国家标准、行业标准等,结合具体情况,根据要求的评价误差进行设计。 数据质量评价的指标虽然各有不同,其本质均是对符合指标规则的数据占总体的比例进行计算。因此,该文基于总体比例参数估计原理,构建抽样样本量估计算法。计算公式定义如式2: (2) 其中,n为达到误差率所需要的最少样本量,zα/2为正态分布α/2显著性水平下的分位数,π为总体的比例,通常取使π(1-π)最大时的0.5,E为估计误差,由评价要求的误差率决定。分析可知,要求误差率越小,其所需的样本量越高,同时开展质量评价所需耗费的资源也就越多。例如,当取显著性水平为0.025,估计误差不超过1%时,经计算,为达到要求的误差率,所需的样本量至少为10 000;同样显著性水平下,估计误差不超过0.1%时,所需的样本量至少为1 000 000。因此,根据实际需要,合理设定误差率。最后,根据设计好的抽样方法和样本量从待评价的总体数据中抽取数据质量评价样本。 3.3.3 质量评价指标体系构建方法及得分计算 该文参照国家标准GB/T 36344-2018《信息技术 数据质量评价指标》,针对能源数据,引入准确性、一致性、完整性、规范性、合理性等五项数据质量评价维度;其次,结合能源数据特点,引入合理性并定义相关评价规则,建立数据质量评价体系。合理性指标,即业务合理性,是指能源数据符合业务逻辑的程度。由于数据在采集、传输过程中存在发生异常情况的可能性,将会导致部分数据损失业务合理性,使其失去直接应用的能力。量化为数据字段值符合业务逻辑的记录条数与总记录条数之比、出现逻辑异常的字段数与总字段数之比。得到如式3所示的能源数据质量评价模型: Q=α1*G+α2*W+α3*Z+α4*Y+α5*S (3) 基于上文构建的能源数据资产评价方法,该文选取能源电力行业某居民用电业务场景作为典型能源数据资产评价场景开展应用实践。该场景基于住户日常用电数据的处理分析,构建算法模型,对常住、非常住等不同居家状态进行识别,并向相关政府部门等需求方提供数据服务。涉及数据资产内容包括用户分类、用户状态、电能表标识、电能示值等。该数据资产涉及的数据采集、收集、整理成本由相关企业承担,数据的使用符合有关法律法规规定。该文从数据质量评价、数据成本评价、数据应用评价实施电力能源数据评价。 4.1.1 确定评价数据范围 进入数据评价环境。分析选定场景涉及数据总量及特征,按地域、时间维度设计抽样数量及抽样规则:随机选取北京、浙江、黑龙江、陕西为抽样对象,分别随机抽取10 000个用户编号为抽样点;选定时间周期为1个月,并与抽样省份随机组合。选定数据资产应用场景共涉及数据表4张,数据字段76个,记录总量1 344 206条,数据元素总量共计25 539 914个。经筛选,实施评价的字段共计48个,评价字段覆盖率为63.16%。 4.1.2 建立数据质量评价体系及评价规则 基于国家标准,根据实际数据情况,从业务场景下数据质量关注角度出发,将准确性、一致性、完整性、规范性、合理性作为数据质量评价的5个备选维度。其中,由于数据不存在同一元素在不同表间存储不一致的问题,故一致性指标不选取;规范性主要根据数据属性中不同字段的格式问题,其内二级指标元数据、值域、安全等的合规率受限于数据使用者在流通中、交易过程中的具体要求,所以在质量评价过程中暂不进行评价。最终选取的一级指标包括准确性、完整性、规范性和合理性,二级指标包括准确性中的内容准确率、精度准确率,完整性中的元素填充率,规范性中的格式合规率,合理性中的数据有向性。评价体系如表1所示。选取层次分析法,协同该业务场景技术专家,分析并计算各指标权重系数。 表1 数据质量评价指标 选取数据质量规则库中5个规则标准,包括国家标准GB/T 7408-2005《数据元和交换格式信息交换 日期和时间表示法》[23],GB/T 4754-2017《国民经济行业分类》[24],行业内部标准计量点状态、分类代码,企业业务标准及常识性标准。详见表2。 表2 数据质量评价规则来源 4.1.3 计算数据质量评价得分 按照3.3节数据质量评价方法进行计算,根据以上规则细化分析存在数据记录变化异常等问题,得到该能源场景相关数据质量评价的整体得分为99.35,为数据价值评估提供重要的质量权重参考依据。 该能源数据资产对应数据成本相关的数据采集部分,因涉及数据为原业务的系统已有数据,不涉及新增额外的数据采集步骤,故不包括在数据总体成本中。数据资产成本主要涉及数据汇聚成本、存储开发成本、运维成本及其它间接成本,包括用户智能终端数据采集、数据中台数据汇聚,基础数据存储、管理、安全防护等,以及应用场景下对数据的二次加工、处理、清洗、建模、计算,对相关数据的定期维护过程。对该能源数据资产的成本评价,将明确该数据资产所涉及的各类成本项的范围划定,为开展以成本法为核心的数据价值评估提供参考。 通过对该能源数据资产应用场景对应的产品资料的分析,该大数据场景现阶段主要面向政府用户,对包括公安、住建、民政等多个政府部门形成服务能力。通过能源数据建模分析方式,支撑政府施政,节约政府行政成本,体现了较高的社会价值。而由于数据稀缺度极高,虽然目前在经济市场上尚未具备明确收益,未来具有较大的市场空间。通过对该能源数据应用分析,由于缺少明确的收益,可从节约政府行政成本、提升企业业务运行效率等方面进行收益范围划定,为开展以收益法为核心的数据价值评估提供参考。 该文研究构建了一种用于支持能源数据资产价值评估的数据评价方法,提出将数据质量、成本、应用作为数据资产价值化的关键影响因素,并通过能源数据质量的价值联系函数进行量化分析。实践结果证明,该方法能够对能源数据资产在相关应用场景下进行有效评价。财政部于2023年8月21日正式对外发布《企业数据资源相关会计处理暂行规定》,这对能源数据的价值评估提出了更高要求。 基于数据的技术特征——例如数据质量、信息含量、隐私含量,业务特征——例如应用场景、商业模式,提取数据资产价值分析中的可量化维度进行建模,能够有效提升开展价值评估的科学性、准确性和可操作性。在后续工作中,通过深入应用实践,进一步构建能源数据质量指标体系,完善价值联系函数计算分析,扩展基于能源数据特征的评价维度,为后续能源数据资产价值评估相关标准的制定提供参考。4 能源数据评价应用实践
4.1 数据质量评价
4.2 数据成本评价
4.3 数据应用评价
5 结束语