基于动态Stacked-GBDT算法的数据资源价值评估方法研究

2023-02-22 11:46沈俊鑫赵雪杉
科技管理研究 2023年1期
关键词:预测价值评估

沈俊鑫,赵雪杉

(昆明理工大学管理与经济学院,云南昆明 650093)

1 研究背景

数字经济时代,如何利用好、发挥出数据要素的价值是当下生产力发展和提高的关键,也是经济政策和经济研究格局变革的关键[1];企业转型、技术经济与发展范式跃迁、国民经济循环效率提升都要依靠数据要素这一新时代下的基础生产要素来提供新动力、加快新进程[2]。数据资源可以在所有社会成员和生产部门之间自由流转是数据要素市场化的基本要求[3],但数据交易平台存在定价标准模糊、交易规则缺失、买卖双方信息不对称的问题[4],极大的制约了数据资源的流动及数字经济的发展[5]。我国数据要素市场化建设要求加快数据标准制定、健全数据评估和定价机制、拓展数据市场交易平台、优化数据资源配置、完善数据交易系统[6]。现阶段,国内大数据交易市场已经初见规模,但仍不够规范和统一,其可持续发展还需要依靠合理的定价及政府性指导[7]。现有数据交易的交易成本普遍偏高且数据质量无法得到有力保障,是由于目前数据交易环境存在定价标准模糊、交易规则缺失、交易双方信息不对称的问题,这些问题极大地限制了数据资产的流动,阻碍了数字经济的发展[8],而数据能够在所有社会成员和各生产部门之间流通是数据要素市场化的要求。数据定价作为数据交易市场的基础,在数据被当作重要生产要素过程中有着关键作用。目前数据交易市场,交易价格混乱、数据资源利用率低下、企业盈利能力不足的现状,亟待合理的数据定价方法来改变[9];同时,合理的数据定价方法还可以吸引更多的潜在用户参与交易,进一步提高企业盈利,从而为数据产业的发展注入活力。在当前的数据交易市场中,透明度低的买卖双方、严重不对称的信息,造成了目前数据市场上数据定价的混乱。若能建立合理的价值评估机制及数据资源定价标准,既能促进数据流通也能改善数据市场交易效率。

缺乏合理且有效的数据资源价值评估定价方法是限制目前数据要素市场化、大数据交易平台发展的关键卡点[10]。实现以价值为导向的持续运营能力提升是数据资产运营的核心目标,其关键在于数据资产价值评估环节的补全,多维量化分析企业数字资产价值并为企业数据资产价值运营决策提供支持,真正意义上地做到数据资产运营的价值闭环,有效盘活数据资产价值。

2 相关研究述评

2.1 数据资源价值评估方法

国内外学者针对数据资源价值评估展开了相关研究,大致可以分为无形资产评估方法、定量影响因子评估方法和智能评估方法等三类。

无形资产评估方法指将数据资产当成无形资产,应用一种或者多种传统的无形资产评估方法来评估数据资源价值的方法,包括成本法、市场法、收益法[11]。数据资源具有与传统无形资产、金融资产不同的特点,不能直接应用无形资产评估方法[12]。定量影响因子评价方法是基于分析方法确定数据资产价值影响因子权重以构建数据资产评估模型。Saiko 等[13]提出通过对数据本身和质量等多维度的特征进行重要性和价值定量评估,再结合价值矩阵等定性分析方法,最后得到数据的综合价值。李菲菲等[14]从不同角度建立了基于层次分析法的数据资产价值评估模型。Yu等[15]根据数据的内在属性,即颗粒度和隐私,提出了数据评估方法。智能评估方法是指使用聚类、分类、回归类机器学习方法计算数据资产的价值。智能评估方法相比上述方法对数据资源的特征具有更好的适用性,具体表现为:评估标准更客观、处理能力更强大、数据特征更适应。Agarwal等[16]使用机器学习算法设计用于购买和出售机器学习训练数据的实时数据市场。Cong等[17]提出了机器学习部署的步骤中为终端用户的模型定价。倪渊等[18]建立了基于AGA-BP神经网络且考虑诸多数据指标及其价值非线性关系的数据资源评估模型。智能算法评估相对于传统算法在非线性拟合能力、预测精度、可量化程度和运算效率等方面有强大的优势。但目前,智能算法在数据资源价值评估领域的应用还不够深入,需要进一步研究以充分发挥智能算法在数据资源价值评估领域的优势。

2.2 研究述评

学者们从不同角度对数据资源价值影响因素的挖掘逐渐趋于全面,缺乏各影响因素与数据资源价值的定量影响分析。现有方法通过借鉴传统无形资产评估方法初见成效,但均存在不同程度的局限性:

(1)传统的无形资产评估方法通过单种或者多种混合的传统无形资产评估方法来衡量数据资产的价值,一部分研究直接将数据资产视为无形资产;另一部分研究根据数据资产的增值特性与无形资产相区别,但是并未考虑数据资源增值的问题。

(2)定量影响因素评估方法从数据资产成本、应用、维护等不同角度提出了数据资产价值的影响因素,并根据层次分析法对各种价值影响因素进行权重分析,最后建立数据资产价值评估模型,但其主观性较强,不能形成客观量化的价值判断指标。

智能算法可以通过时间维度的指标设计解决数据增值的测量问题;可以通过算法的计算规避以往研究数据资源价值时主观给定价值影响系数等问题。综合判断,智能算法在数据资源价值评估的应用更客观,更有效率,适用性也更广。为解决上述问题,本文提出了基于Stacked-GBDT集成学习的数据资源价值评估方法。首先,基于敏感性分析,从数据的本身因素和市场因素两个维度归纳建立了数据资源价值影响要素指标体系;然后,基于梯度提升决策树(gradient boosting decision tree,GBDT)机器学习算法与模型堆叠(Stacking)集成学习算法,提出了基于Stacked-GBDT的数据资源价值评估算法,并与Random Forest(随机森林算法)和XGBoost(极限梯度提升算法)以验证本文所提方法的正确性及有效性[19-20];最后,应用Stacked-GBDT模型对数据集进行动态定价。

3 数据资源价值评估指标体系

数据资源价值受到本身因素与市场因素的双重影响。从数据资源本身因素考虑,数据规模、数据类型、数据所属行业、数据内容和数据质量等均对数据资源价值有显著影响[8-10],其中数据质量相关指标主要包括数据的完整性、独特性、有效性、准确性和一致性[21];从数据资源市场因素考虑,数据购买量、数据应用价值度和数据稀缺度等对数据资源价值有显著影响[6,10,15]。

将影响数据资源价值指标作为机器学习算法模型的输入特征,将数据资源累计成交额即数据资源价值(由价格×购买量得到)作为算法模型的输出特征。对各特征的描述性统计如表1所示。

表1 数据资源价值特征描述统计

在数据资源价值影响因素中,数据行业分类、数据分类标签,共计2个指标为离散值指标,其余为数值型指标;所有特征相互独立,不存在线性影响关系;所选取的数据指标都是以往学者研究所得影响数据资源价值的因素,所以属于价值稠密型;整体指标体系共计11个维度,相较于其他类型大数据属于低维度数据,可得该指标体系下的数据资源数据属于低维稠密型。

4 基于Stacked-GBDT集成学习的数据资源价值评估模型

4.1 GBDT算法原理

GBDT算法是基于加法模型通过迭代训练提升模型效果的决策树算法[22],相较于其他算法具备如下优点[23]:(1)灵活性高;可灵活处理数据交易信息中的离散数据;(2)性能良好;处理数据资源价值评估问题应用的非线性数据表现优异;(3)抗干扰能力强;在面对数据资源价值差异大的数据时鲁棒性很强;(4)数据适用度高;数据资源价值可量化指标体系整体属于低维稠密,GBDT相较于其他算法可以很好地处理该特点的数据;(5)预测精度高;对评估数据资源价值有很大的帮助。

GBDT算法的每次迭代都是在残差降低的梯度方向上创建新决策树,并基于加法模型对每个决策树的结果进行加权求和以获得最终的数据资源价值评估结果,模型结构如图1所示。

图1 GBDT数据资源价值评估模型

循环执行构建决策树的步骤并不断更新,可以得出GBDT数据资源价值评估模型。将数据资源价值本身影响因素和市场影响因素输入模型,即可得出该数据资源的价值评估结果。单独的GBDT模型对于数据资源价值评估准确精度提升有限,且受随机性限制导致泛化能力不足,但数据资源价值评估对精度要求较高,于是需要进一步地优化以提升整体模型的评估精度。

4.2 Stacking集成学习算法原理

集成学习指由多种算法融合形成的机器学习算法。目前提升机器学习效果最好的方法就是集成学习,可以在原有的机器学习模型的基础上表现得更好,通过集成策略对抗过拟合而且不需要太多的额外调参等工作。常见的集成学习算法有模型堆叠算法(Stacking)、引导聚集算法(Bagging)、框架提升(Boosting)。Stacking是一种将弱学习器集成进行输出的策略,属非线性融合;剩余集成学习都属基于加权平均的组合预测算法,不能够体现样本内单个样本预测误差对整体权重的影响[24]。由此,选用Stacking算法对预测模型进行融合,以提高模型精度和泛化能力。

基于GBDT的数据资源价值预测方法具有输入数据量需求小、可解释性强的特点,将决策树算法GBDT与集成学习相结合,可以进一步提高模型的预测精度与泛化能力。在构建GBDT数据资源价值预测模型时,每一个当前决策树的模型建立都依赖上一个决策数模型的预测结果,属于串行计算模型。将Stacking集成学习与GBDT相结合,在Stacking集成学习的第一阶段可并行运行多个GBDT模型,在第二个阶段集成上阶段的预测结果作为输入再次进行预测,提高整体预测精度。

Stacking集成学习方式是通过组合多个预测模型的信息然后生成新模型的集成方法,通过对多个不同模型的组合用以获得比单一的算法更优越的性能。第1步将原始输入的数据集划分成若干个子数据集,作为第1层预测模型的各个基学习器的输入,然后由各个基学习器分别输出各自的预测结果;第2步,第1层的预测结果作为第2层模型的输入,然后对第2层元学习器的预测模型进行训练,最后由第2层的模型输出得到最终的预测结果。将Xi作为输入,记第1层第k个基学习器为Bk,第2层的元学习器为P,则第1层第k个基学习器的输出为,将第一层的输出结果作为第2层元学习器的输入,最终第2层的输出结果为,如式(1)所示。

Stacking的集成学习方式如图2所示。

图2 Stacking集成学习模式

4.3 Stacked-GBDT算法

本文将Stacking模型融合应用于多个GBDT模型的集成,用以提升数据价值预测精度。基于GBDT与Stacking模型具体融合过程如图3所示。

图3 基于GBDT与Stacking模型融合的数据资源价值预测模型

(1)利用第1层的基学习器生成训练集与测试集的N组数据资源价值预测值。根据交叉验证的思想,首先将数据资源指标的训练集分成5份,记作S1,S2, ,S5。首先应用训练集S1,S2,S3,S4训练基学习器1,并基于训练好的基学习器1对S5和测试集进行预测;然后,再用S1,S2,S3,S5重新训练基学习器1,继续对S4和测试集进行预测。以此类推,得到基学习器1对S1,S2,S3,S5的预测值(将其组合成第一组的训练集预测值)和测试集的5组预测值(将这5组预测值的平均值作为第一组测试集预测值)。

同理对基学习器2-N进行同样上述操作,得出训练集与测试集的第2-N组数据资源价值预测值。

(2)利用第1层的基学习器输出的训练集的N组预测值构建成第2层的训练集;利用第2层的基学习器输出的测试集的N组数据资源价值预测值构建成第2层的测试集,得到最终数据资源价值的预测结果。

不同的基学习器存在不同的特性,进行模型融合的目的是减少单一基学习器的误差影响等,使得整体模型融合系统预测性能提升。

将多个GBDT模型作为Stacking集成模型的第1层基学习器,考虑到使用Stacking集成学习容易带来过拟合,所以将简单的Linear模型作为第2层的元学习器。基学习器的数量对Stacking的融合效果有直接影响,基学习器的数量较少会造成各学习器间不能有效互补,数量较多会造成模型冗余且调参更复杂。一般情况Stacking模型的基学习器数量在3~5个,经过测试可得最佳融合效果的基学习数量为3个。因此,Stacking第一层基学习器为3个GBDT模型,第二层为Linear模型。

4.4 基于数据资源价值评估模型的动态定价方法

数据资源价值的评估与定价是目前数据经济发展研究的要点所在,而数据资源的价值与定价息息相关。数据本身的质量和特点与其在市场上的应用在数据资源的价值形成中有很重要的影响。数据本身特性决定了数据是否能经受住市场的考验,能否长久地发挥它的价值;而市场则是检验该种数据资源的实际应用情况如何,是否与时代社会的发展息息相关,是否能产生积极的意义进而促进数据经济的发展。

数据资源的价格随着时间变化,其本身的质量和市场因素都会发生变化,例如:随着时间的变化数据的时效性会变差,数据独特性会降低,其价格也应当发生变化,通过数据资源价值最大化的思想可确定在不同阶段数据资源的最佳售出价格。

对于新上架的数据资源,采用提出的Stacked-GBDT数据资源价值预测模型,第一步从数据资源的本身因素和市场因素分析,对数据资源本身特性指标进行量化,例如数据资源的规模度、结构化程度、所属行业等可以通过数据资源的内容直接得出,其次由专家基于市场的角度横向对比该数据资源与其他数据资源,得出部分市场化指标;第二步,通过改变价格,得出不同的价格下Stacked-GBDT模型预测出的数据资源的价值,得到数据资源价值随价格变化的曲线;第三步,由于数据整体的变化过程是算法驱动的,与实际情况是有一定出入的,应当根据数据资源的实际情况,由专家考虑市场情况之后,提前确定一个合理的数据可售价格区间,在该区间内寻找使得数据资源价值最大的价格点。当数据交易一段时间后,其本身因素和市场因素的量化值会有相应的改变,将改变后的信息重新输入Stacked-GBDT模型,即可得出新的数据资源价值随价格变化的曲线,重新确定价格,实现了数据资源的动态定价。至此,在数据资源每个阶段都有使得数据资源价值最大的策略可采用。

5 算例分析

5.1 数据来源及处理

5.1.1 数据来源

国信优易数据公司是由国家信息中心于2015年发起成立的科技平台型企业,拥有大数据、人工智能、区块链和物联网等新一代信息技术。优易数据的数据集市是一个数据交易平台,该平台拥有多行业数据交易资源。本研究建模所需数据均来自该平台,使用网络爬虫技术获取该网站上产业经济、健康医疗、交通地理、金融征信、精准营销、科研技术、企业管理、生活服务、舆情监测和行业检测报告共计10类数据资源交易数据。

5.1.2 数据预处理

国信优易数据的数据资源交易数据存在如下问题影响模型预测精度:数据信息不全;重复;数据量纲差别大;包含文本型数据。

对获取的数据进行数据处理:

第一步处理规则:若指标体系中有关字段缺失,则删除这条数据;若出现重复数据,则只保留一条有效数据;数据量的计量单位,统一以KB为单位。

第二步数据处理:类别化标识:数据行业分类、数据分类标签共2个类别字段采取one-hot编码的方式进行数据数值化;归一化处理:由于不同数据的规模度相差很大,需要将其进行归一化处理,以此提高模型的收敛速度,归一化公式为:

式(2)中,x为归一化前的数据;max(x)和min(x)为数据集中x的最大值和最小值。

最终获得可使用数据5 813条,将总数据量的80%,即4 650条数据作为训练集,总数据量的20%,即1 163条数据作为测试集。

5.2 模型评价指标

预测指标采用均方根误差(root mean square error,RMSE)和平均绝对误差(mean absolute error,MAE)衡量预测结果的全局和局部绝对误差,采用均方根百分误差(Root Mean Square Percentage Error,RMSPE)和平均绝对百分误差(mean absolute percentage error,MAPE)衡量预测结果的全局和局部的相对误差,采用决定系数(r-square,R2)衡量预测的整体效果5个评价指标,如下所示。

5.3 模型预测精度评价

基于上述预处理数据分别构建基于GBDT、Random Forest、XGBoost的单独模型和与 Stacking集成的数据资源价值评估模型,并进行对比分析以验证本文所提Stacked-GBDT数据资源价值评估模型的有效性与准确性。6种模型的数据资源价值预测结果如图4所示。图4中横纵坐标的柱状图分别表示真实值和预测值的分布情况,散点表示预测值。

图4 数据资源价值预测6种模型数值拟合情况

由图4可见,总体来看,根据柱状图显示的数据分布可以看到,数据点的分布大致围绕在中心线周围,数据在价值0~10 000的范围分布较密集,总体预测更准确;当数据价值更大时,不同模型预测精度有不同程度的下降,预测精度下降表现为数据点呈放射状远离中心线;分别来看,三种算法的单独模型与其Stacking集成模型相对比,集成后的模型相较于集成之前都有不同程度的精度提高,其中XGBoost算法在数据价值增大之后精度下降最多,Random Forest算法次之,而GBDT算法在数据价值更大的阶段仍有良好的表现,Stacked-GBDT又比GBDT稍有提升。

将设定好的5个预测评价指标对6种模型的预测效果进行对比,这6种模型的预测评价指标计算结果如表2所示,并根据此结果绘制指标偏差率对比如图5所示。

表2 6种模型预测效果评价

图5 Stacking集成模型与未集成模型误差对比

由表2易得,首先根据整体预测指标R2可以发现,基于机器学习算法与Stacking的融合模型和未集成的机器学习模型都能比较好的预测数据资源价值,说明机器学习是一种可用于数据资源价值预测的方法。相比较来看,Stacked-XGBoost、XGBoost、Stacked-Random Forest、Random Forest误差指标偏大,预测效果欠佳;Stacked-GBDT与GBDT对于数据资源价值预测的效果更好,Stacked-GBDT预测评估效果最佳。

从图5可以看到,通过Stacking集成模型与未集成模型横向对比误差,发现集成模型的预测效果均优于未集成模型,通过GBDT与其他机器学习模型的纵向对比误差,发现GBDT的预测效果均优于其他模型。

通过输入数据资源本身指标和历史数据交易信息完成模型训练后得出的Stacked-GBDT模型可有效解决目前数据资源价值评估中主观性强、缺乏定量标准的问题,对促进数据要素市场化、数字经济的发展很有意义。

5.4 定价方法评估

基于本文所提的Stacked-GBDT模型对数据集进行动态定价,选择国信优易数据集的具体信息如表3所示。

表3 国信优易数据集示例具体信息

保证数据价值评估指标恒定,动态调整数据的价格(设定价格区间0~2 000),并将上述数据集相关指标输入至Stacked-GBDT数据价值评估模型,并绘制价值随价格变化曲线,如图6(a)所示。

图6 由给定区间确定价格示例

从图6(a)可以看出,数据集的价值随价格增加呈现先上升后下降的趋势。变化趋势符合常规认知,随价格从低到高,数据资源的价值整体呈上升趋势;价格到达较高水平后,数据资源价值因购买量下降幅度超过价格增加幅度而下降。但是并不能直接根据最高的价值点进行价格的选择,数据整体的变化过程是算法驱动的,与实际情况是有一定出入的,应当根据数据资源的实际情况,由专家考虑市场情况之后,提前确定数据可售价格区间,然后根据数据价值随价格的变化曲线,在数据可售区间(m,n)内选择使得数据价值最大时对应的价格o作为数据的售出价格,示例如图6(b)所示。

当新上架的数据交易一段时间以后,根据指标的评分变化,例如数据时效性、数据独特性等、以及用户的评分反馈调整,重新将数据信息输出模型,得出新的价值随价格的变化曲线,重新确定售出价格,以此实现数据资源的动态定价数据资源价值最大化。

6 结论

数据资源价值的准确评估和定价是促进数据要素市场化、发展数字经济的关键步骤。本文使用人工智能及机器学习领域的前沿技术来解决数据资源泛滥背景下的价值难以准确快速确定、主观性强、缺乏定量标准的问题,并建立数据资源价值随价格变化曲线用于精确、动态定价。首先对以往学者对数据资源价值评估的研究进行了系统的梳理和分类;然后基于数据资源的本身因素和市场因素两个维度构建了数据资源价值评估指标体系,针对数据资源交易平台的交易数据的特点,从智能算法角度出发提出了基于Stacked-GBDT模型的数据资源价值评估模型,以国信优易数据平台的5 813条交易数据为例,进行了实证研究和多种模型的对比分析;最后使用Stacked-GBDT模型建立了数据资源价值随价格变化曲线,实现了精确、动态定价。

本研究的意义包括三个方面:

(1)从数据资源本身和数据市场因素两个角度深度挖掘了均可量化的价值影响因素并建立了指标体系,为以往研究中指标难获取、影响因素排序主观性强、最终数据资源价值难量化的问题提出了可行的解决方案;

(2)提出了一种基础历史交易数据进行模型训练的机器学习集成模型。以国信优易数据为例,在Stacking集成算法模型中,充分测算了多种算法与Stacking集成模型在数据资源价值预测方面的表现并且对比了未集成算法的效果;

(3)运用Stacked-GBDT数据资源价值评估模型对数据资源的定价提供了准确、动态调整的支撑。结果证明,Stacked-GBDT算法是一种可评估且评估效果佳的数据资源价值评估与动态定价方法。

猜你喜欢
预测价值评估
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
第四代评估理论对我国学科评估的启示
不必预测未来,只需把握现在
一粒米的价值
“给”的价值
评估依据
立法后评估:且行且尽善
EMA完成对尼美舒利的评估