数据要素是推动中国服务业增长的新动能吗
—— 来自机器学习的估计※

2023-09-05 09:22:44于柳箐高煜

现代经济探讨 2023年9期

于柳箐高煜

内容提要：服务业增长对经济发展具有重要贡献,然而在传统要素推动中国服务业增长动能不足的情况下,寻找新动能就成为推动服务业进一步增长的有效途径。从理论与实证两个层面开展研究,提出数据要素促进服务业增长的数据挖掘机制以及边际收益递减规律,同时建立包括30种要素在内的影响服务业增长的投入要素指标体系,并基于中国2012-2019年省际面板数据,使用双重机器学习、随机森林以及两种“黑盒”模型解释工具,就数据要素对服务业增长的促进效应、贡献和边际收益进行了检验。研究发现,数据要素是推动中国服务业增长的新动能,在推动服务业增长中遵循边际收益递减规律,并且随着时间的推移,数据要素对中国服务业增长的促进效应逐渐增强、贡献越来越大。相比于生活性服务业,数据要素对生产性服务业增长的促进效应更明显。因此,就政策层面而言,政府需要注重扩大数据要素规模,加强数据挖掘人才培养,并促进数据要素有序发展;就企业层面而言,服务业企业需要积极采集数据资源,努力提高数据分析能力,进而有效提炼有价值的信息,促进服务业进一步发展。

一、引言

2020年中国服务业增加值占国内生产总值的比重超过50%,已成为经济增长的主要来源,但与发达国家服务业在国民经济中的地位相比仍然存在很大差距。随着中国经济增速放缓并进入高质量发展阶段,参照发达国家的经济发展路径,依靠扩大服务业比重优化产业结构、拉动经济增长是今后保持经济稳定、健康发展的关键。然而近20年来,中国服务业增加值占比不仅增长缓慢,特别是近几年来增速还有下降趋势。在此背景下,如何推动中国服务业进一步增长就成为重中之重。

改革开放以来,中国经济在融入全球化进程中依靠大量的廉价劳动力、高储蓄率和技术赶超等因素保持着较高的增长速度,然而近年来由于人口红利逐渐消失、资本回报率下降等原因,传统要素增长动能不足的问题日益凸显(郑江淮等,2018)。在服务业层面,行业增长主要由要素投入驱动,但传统的劳动力、资本等要素动能不足,已经成为阻碍服务业进一步增长的主要原因(邢宏洋等,2021)。因此,寻找新动能成为推动中国服务业进一步增长的关键。2017年12月8日习近平总书记主持十九届中共中央政治局第二次集体学习时的讲话中就提出“要构建以数据为关键要素的数字经济”。近几年,数字经济在服务业增加值中所占的比重逐年增加,至2020年已达到40.7%,但仍然低于发达国家51.6%的水平(1)中国信息通信研究院:《中国数字经济发展白皮书(2021)》。。2020年3月,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,正式提出进行数据要素市场化改革,明确了数据要素对国民经济发展的重要性。2022年12月,中共中央、国务院又印发《关于构建数据基础制度更好发挥数据要素作用的意见》,从产权、流通和交易、收益分配、治理等制度层面针对数据要素发展进行顶层设计。

在传统要素动能不足的情况下,数据要素能否成为推动中国服务业增长的新动能呢?基于要素动能视角,现有研究主要从物质资本(夏杰长等,2019)与人力资本(戴魁早等,2020)等方面分析服务业增长或发展问题,与本文较为接近的一支文献重点关注网络技术(江小涓和罗立彬,2019)、数字经济(戴魁早等,2023)、数字技术(李帅娜,2021)等对服务业的影响。遗憾的是,现有文献缺少关于数据要素对服务业增长影响的直接研究,因此尚未回答数据要素是否为推动中国服务业增长新动能的问题,同时也未建立完善的数据要素促进服务业增长的理论机制;另外,上述文献在进行实证研究时主要采用多元线性回归模型,然而由于多重共线性和自由度下降的限制,模型中不能无限度地添加解释变量,因而在只能控制少数变量的情况下,现有研究不仅可能遗漏关键变量造成估计结果不准确,更无法从动能视角对促进服务业增长的要素进行全面考察。

为回答数据要素是否为中国服务业增长新动能的问题,本文不仅提出数据要素促进服务业增长的数据挖掘机制,同时建立影响服务业增长的投入要素指标体系,并基于中国2012-2019年省际面板数据,使用双重机器学习、随机森林以及两种“黑盒”模型解释工具——置换特征重要性和偏依赖图,就数据要素对中国服务业增长的促进效应、贡献以及边际收益进行深入研究。在中国服务业进一步增长动能不足的情况下,本文的研究具有重要的理论与现实意义,不仅为数据要素在中国服务业增长中的贡献提供经验证据,更为中国服务业进一步增长提供重要启示。本文的边际贡献可能体现在以下几个方面:一是,就数据要素对服务业增长的影响开展直接研究,在现有文献基础上,不仅从理论与经验视角回答了新的问题,更丰富了数据要素与服务业相关领域的研究;二是,基于数据挖掘实践提出数据要素促进服务业增长的理论机制,补充了有关数据要素价值创造的理论;三是,建立较为完善的投入要素指标体系,并采用机器学习方法研究数据要素对服务业增长的影响,相比于使用传统计量模型的文献,不仅控制了更多投入要素变量,同时还避免了“维数诅咒”和模型误设问题,得到更为精确且稳健的估计结果。

二、理论分析与研究假说

1. 数据要素促进服务业增长的数据挖掘机制

数据要素是存在于计算机、网络空间中的虚拟资源,服务业内的数据要素主要来源于服务业企业在日常经营、供需互动和市场活动中所产生的有关交易、市场、人员以及供应链等的数据资源。与资本、劳动力等传统要素依赖自身的损耗实现价值不同,数据要素具有虚拟性,如果只是进行数据积累无法直接促进服务业增长。数据要素的价值实现主要依赖于数据挖掘(Data Mining),数据中所蕴藏的有价值的信息或知识只有通过数据挖掘才能将其释放(王超贤等,2022)。具体来看,数据挖掘是通过数据采集、存储、清洗后将非结构化数据转换为具有一致性、正确性的结构化数据,再利用机器学习等技术进行分析,以提炼出有价值的信息的过程。通过数据挖掘,服务业企业将从数据要素中至少提炼出3类有价值的信息:需求信息、决策信息和管理信息。企业对这些信息的应用将促进服务业增长。首先,服务业企业应用需求信息可以及时了解消费者需求,从而提供服务品推荐、创新服务品供给、满足个性化服务需求等(Veldkamp和Chung,2019)。其次,服务业企业应用决策信息可以改善企业领导者面临的信息不对称或自身信息处理能力较弱的问题,使得服务业企业不再通过企业领导者的商业嗅觉或直觉进行决策,进而可避免企业领导者由于主观认知偏差造成决策失误,提高决策的科学性与合理性(Rahwan等,2019)。最后,服务业企业应用管理信息不仅可以改善人员绩效激励,同时可以更加了解供应商风险和优势,从而提高人力资本、供应链等管理能力(陈剑等,2020)。因此,作为虚拟的、新兴的生产要素,数据要素可以通过数据挖掘促进服务业增长。据此,本文提出:

假说1:数据要素是推动中国服务业增长的新动能。

2. 数据要素遵循边际收益递减规律

数据要素规模与数据价值创造之间并不是稳定的线性增长函数,随着数据要素规模的扩大,可能会由于数据质量下降、数据价值的快速折旧造成数据价值释放更加困难(Rogers,2021),因为当数据要素达到一定规模后,数据价值不再由数据量决定,而是由数据分析算法决定(Varian,2018)。因此,当数据分析算法固定时,随着数据量的增加,数据分析的准确率或精确性的提升将越来越慢(Bajari等,2019)。另外,就企业层面而言,通过对数据要素所蕴含的信息的应用将降低企业经营过程中的不确定性,从而提升企业效率,然而这一不确定性状态存在下限,导致数据要素对企业效率的提升具有上限,因此当其他要素不变时,随着数据要素投入的增加,企业效率提升速度将下降(Varian,2018)。Farboodi和Veldkamp(2021)通过构建包括数据要素在内的索洛增长模型发现,当企业利用数据要素将预测误差降至0时,企业运行过程中不可预测的随机性必然使得数据要素呈现边际收益递减特性。因此,当数据要素投入规模扩大到一定程度时,数据要素收益递减的力量将占据主导地位,从而随着数据要素的累积,其对服务业增长的促进作用会越来越小。据此,本文提出:

假说2:数据要素在服务业增长中遵循边际收益递减规律。

三、研究设计

1. 双重机器学习、随机森林及其解释方法

(1) 双重机器学习。双重机器学习(Double/Debiased Machine Learning,DML)由Chernozhukov等(2018)提出,是利用机器学习在高维情形中预测方面的优势改进了部分线性回归(Partially Linear Regression,PLR)等(因果)模型非参数部分的估计。本文中,DML不仅通过控制更多的影响服务业增长的投入要素变量以有效解决因果推断中数据要素受到其他混淆因素影响的内生性问题,还通过正交化(orthogonalization)和交叉拟合(cross-fitting)分别消除了在高维环境下使用复杂机器学习方法估计处理效应时产生的正则化偏差(regularization bias)和过拟合偏差(overfitting bias),从而得到数据要素促进服务业增长效应的一致估计。

(2) 随机森林。随机森林(Random Forest,RF)是一种有指导的非参数、非线性决策树(2)决策树是以模型残差平方和(RSS)最小为目标,使用自变量中的值对样本进行多次分裂(split),进而基于树型结构创建样本的不同子集,从而对因变量进行预测的机器学习方法。集成机器学习方法(Breiman,2001)。RF首先利用自助法(bootstrap)生成多个样本,随后在每个样本中又进一步对自变量进行随机选择,从而建立众多具有较大差异的决策树,最后将所有决策树的预测结果取平均。通过对样本与变量的随机扰动,RF实现了决策树去相关(decorrelated),不仅显著提高模型预测的准确性,更降低了方差,提高了模型的稳健性。相比于计量模型,随机森林的预测结果具有较高的准确性与稳健性,并且针对本文所研究的问题使用随机森林还具有以下优势:首先,随机森林具有嵌入式的变量筛选功能,可以纳入更多的影响服务业增长的投入要素,在解决遗漏变量问题的同时不会引发多重共线性和自由度下降的问题(Breiman,2001),进而可以广泛对比不同要素对服务业增长的重要性,从而精确估计数据要素对服务业增长的贡献;其次,随机森林是非参数、非线性模型,无需设定函数形式,可以实现对数据要素与服务业增长现实关系更好的近似,进而可在高维环境下有效识别数据要素投入与服务业产出之间的非线性关系,从而实现在其他众多投入要素不变的情形下检验数据要素在服务业增长中的边际收益。

(3) 解释方法。随机森林虽然具有较高的预测准确性与稳健性,却属于“黑盒”模型,难以对其预测结果进行解释,这与本文需要解释数据要素投入与服务业产出之间的因果关系这一实证研究目标相违背。为此,本文使用两种“黑盒”模型解释工具对随机森林训练结果进行解释。第一种是置换特征重要性(Permutation Feature Importance,PFI),通过测度打乱(shuffling)投入要素变量值前后随机森林模型对服务业产出预测误差(3)以均方误差(MSE)或平均绝对误差(MAE)进行度量。的增加幅度来衡量投入要素的重要性,预测误差增加得越多,表明该投入要素对服务业增长越重要。第二种是偏依赖图(Partial Dependence Plot,PDP),基于对数据要素投入变量边际分布(marginal distribution)的计算,通过干预数据要素规模展示数据要素投入变化时随机森林对服务业产出的平均预测如何变化,以反映当其他投入要素不变时数据要素投入对服务业产出的非线性影响方式及边际影响。

2. 变量设定

(1) 核心解释变量。本文旨在检验数据要素是否为服务业增长的新动能,因此核心解释变量是数据要素投入规模,使用引自徐翔等(2021)测算的地区数据规模(datSca)指标进行衡量。

由于数据属于新兴生产要素,现行的经济统计体系中还未包括相关指标,因此本文无法直接获取衡量数据要素规模的数据。目前学术界对数据要素规模的测度主要采用的是成本法,其核心思想是数据要素的价值取决于信息或知识提炼时的成本大小(Reinsdorf和Ribarsky, 2018),因此可以通过数据生产过程(4)即数据采集、存储、清洗、分析等数据挖掘活动。中的成本反映数据要素价值,其中以加拿大统计局(Statistics Canada,2019)的方法最具代表性,该方法主要以数据生产过程中所包含的职业(5)比如数据录入员、统计人员、精算师、数据库管理员、数据分析人员、经济学家等。在数据生产上投入的劳动力成本(6)以工资薪酬衡量。估计数据价值,然而这一方法却存在两点不足:一是标准职业分类难以完全涵盖数字经济时代下不断出现的新职业类型,难免遗漏数据生产相关职业;二是完全凭借主观的经验假设各个职业在数据生产上投入的劳动力成本占其总劳动力成本的比重,缺乏具有说服力的基准依据。鉴于此,徐翔等(2021)以《国民经济行业分类》为基准对历年中国省份层面的数据规模展开测度,改进了职业分类方法可能遗漏数据生产相关职业以及主观假设数据生产相关劳动力成本占比等弊端。

具体来看,徐翔等(2021)将各地区涉及数据生产过程中的投资划分为人力成本和数据载体(主要是数据库)成本,前者的计算以各地区、各行业(7)指《国民经济行业分类》标准中的所有大类(2位数)行业。的就业人员工资数据(8)数据来自历年《中国劳动统计年鉴》中的“各地区分行业城镇单位就业人员和工资总额”指标。为基础,后者的计算以各地区软件和信息技术服务业的固定资产投资数据(9)数据来自历年《中国固定资产投资统计年鉴》和《中国投资领域统计年鉴》。为基础,通过加总这两部分成本来估算各地区每年的新增数据要素规模。i省份j行业在t年份的数据要素投资价值(数据要素流量)Vijt为:

Vijt=αjWijt+Iijt

(1)

其中,αj为行业j的数据生产活动占其总生产活动的比例,Wijt为i省份j行业在t年份的就业人员工资总额,因此αjWijt即代表数据要素的人力成本;Iijt为i省份j行业在t年份于数据载体上的固定资产投资或数据存储成本。

由式(1)可知,获得数据要素流量的关键在于αj的计算。由于数据挖掘过程主要依赖相应的信息通信技术(ICT)资本,因而数据要素与ICT资本之间具有较强的互补性(徐翔等,2021),从而通过各行业ICT中间投入占总中间投入的比例可以反映出各行业数据生产活动占其总生产活动的比例。其中,参照蔡跃洲和张钧南(2015)对ICT产业范围的界定,并结合《国民经济行业分类》对各个行业的补充说明,ICT中间投入可划分为ICT硬件投入与ICT软件和服务投入两部分(10)ICT硬件投入部门包括:(34071)文化、办公用机械;(38084)电线、电缆、光缆及电工器材;(39088)计算机;(39089)通信设备;(39090)广播电视设备和雷达及配套设备;(39091)视听设备;(39092)电子元器件;(39093)其他电子设备;(40094)仪器仪表。ICT软件和服务投入部门包括:(63121)电信;(63122)广播电视及卫星传输服务;(64123)互联网和相关服务;(65124)软件服务;(65125)信息技术服务;(86143)新闻和出版。,使用《2018年全国投入产出表》(11)使用《2018年全国投入产出表》的原因是,其部门划分在过往所有版本中最为细致,也最能充分匹配工资成本数据的行业分类。,即可计算得到各行业ICT中间投入占总中间投入的比例。

徐翔和赵墨非(2020)指出,数据要素在短期内不存在折旧,因此基于永续盘存法(12)i省份在基年的数据要素存量,采用期年实际数据要素投资除以后5年数据要素投资的年平均增长率。,i省份在t年份的数据要素存量为:

datScait=datScai,t-1+Vit

(2)

其中,Vit为i省份在t年份的实际数据要素投资(流量)(13)使用固定资产投资价格指数进行平减。,由该地区所有行业j的投资加总得到(∑jVijt)。

(2) 因变量。本文的因变量是服务业产出。在现行的国民经济行业划分体系中,第三产业是指除第一产业、第二产业以外的其他行业,因此第三产业等价于服务业,使用第三产业增加值(serAdd)作为服务业产出的度量,以体现服务业整体规模的绝对扩张速度。

(3) 控制变量。基于双重机器学习和随机森林可以纳入更多变量的优势,相比于其他文献,本文在控制变量的选择上更为广泛。参考夏杰长等(2019)、戴魁早等(2020)的研究,本文从自然资源、人力资本、物质资本、科技、结构、制度和数据7个要素类别出发,构建了包括30种投入要素在内的影响服务业增长的投入要素指标体系,(14)需要说明的是,本文将具有共线性的(数据)资本投资、存量以及人均国内生产总值、居民人均可支配收入等指标同时纳入模型并不会引发多重共线性问题,因为双重机器学习和随机森林等机器学习方法具有重要变量筛选功能,无需担心多重共线性和“维数诅咒”等问题(Breiman,2001;Chernozhukov等,2018),即使模型中存在冗余变量也不会影响估计结果。同时控制存量与流量等指标的目的是为了避免遗漏变量偏误,以对数据要素的因果作用、变量重要性以及PDP更合理地估计,从而体现数据要素在其他众多投入要素不变的情况下对服务业增长的净影响。见表1。不同于上述研究,考虑到数字经济时代下劳动力和资本的新变化,本文在人力资本要素中加入了数据劳动(datLab),以代表从事数据挖掘相关工作的就业人员;在资本要素中加入了数据资本,包括数据资本存量(datK)和数据资本投资(datInv),以代表进行数据挖掘时所使用的ICT设备(实物资本)(15)比如软件(机器学习、人工智能软件、R语言、Python语言等)、传感器、物联网、数据采集平台、数据库、高速计算设备、云计算设备、并行运算设备等。。

表1 影响服务业增长的投入要素指标体系

3. 数据来源与指标计算

因变量和控制变量数据均来自历年《中国第三产业统计年鉴》《中国统计年鉴》《中国人口和就业统计年鉴》《中国劳动统计年鉴》《中国科技统计年鉴》《中国固定资产投资年鉴》《中国投资领域统计年鉴》等。人力资本要素中,服务业城镇单位就业人员数(serEmp)和就业人员平均工资(serWag)是合并了第三产业下门类行业的数据得到的;物质资本要素中,第三产业资本存量(serK)基于第三产业固定资产投资(fixAss)数据使用永续盘存法计算得到。

地区数据劳动人数(datLab)基于涉及数据要素形成与应用的相关行业(16)包括以下7个大类行业:计算机、通信和其他电子设备制造业;仪器仪表制造业;通用设备制造业;专用设备制造业等制造业行业,以及软件和信息技术服务业;互联网和相关服务;电信、广播电视和卫星传输服务等服务业行业。j的数据生产活动占其总生产活动的比例αj与i省份j行业在t年份的就业人数Lijt进行测算。具体而言,一个基本事实是,从事数据采集、存储、清洗和分析等工作的人员并不会将全部的工作时间用于产生数据价值(徐翔等,2021),进而对行业j而言,也并不是所有劳动力都从事数据生产相关工作,因此使用徐翔等(2021)测算的αj乘以Lijt即为i省份在t年份的数据要素相关行业j的数据劳动人数,进一步按行业j进行加总(∑jαjLijt),即可得到i省份在t年份的数据劳动人数。

数据资本投资(datInv)直接使用地区“软件和信息技术服务业的固定资产投资(不含农户)”数据表示(17)软件和信息技术服务业是对信息制作、传输和接收相关过程中产生的技术问题或需求提供服务的服务业,因此该行业的固定资产投资额反映了用于数据采集、存储、清洗、分析的各类软件、数据库和计算设备等的价值。;数据资本存量(datK)使用永续盘存法(18)基期数据资本存量为期年实际数据资本投资除以10%。计算得到:

(3)

2020年后中国服务业正常的发展路径受到新冠肺炎疫情的剧烈冲击,对国内生产总值的贡献率急剧下降(19)新冠肺炎疫情发生后,2020年中国服务业对国内生产总值的贡献率从2019年63.5%下降至47.3%。,在此情况下,数据要素对服务业增长推动作用的发挥同样可能受到干扰,因此为保证实证结论的可信性,同时兼顾数据的可得性,本文将样本期设定为2012-2019年。该时间段基本覆盖了中共十八大以来新时代中国服务业增长的变化,同时也反映了大数据元年2013年(20)这一提法来自熊建、黄碧梅等:《2013大数据元年》,《人民日报》2013年12月25日第10版。后中国数据要素的发展情况。另外,由于本文控制了较多变量,各个变量的单位和变异程度差异较大,因此对样本进行了标准化处理,将每个变量都转换至均值为零、标准差为1的数据,以消除量纲对机器学习估计的影响。

四、实证结果与分析

1. 基本分析

(1) 数据要素对服务业增长的因果效应。针对传统因果模型难以加入更多控制变量或协变量的问题,本文借助机器学习在高维协变量处理上的优势,采用双重机器学习方法对数据要素是否促进中国服务业增长进行因果推断。其中,以数据规模(datSca)为处理变量,第三产业增加值(serAdd)为结果变量,并分别使用回归树、Lasso、装袋森林、随机森林和支持向量机(SVM)等5种机器学习(Machine Learning,ML)模型作为估计PLR非参数部分的方法对数据要素促进中国服务业增长的条件平均处理效应(CATE)进行估计(21)DML和以上ML模型的超参数均使用R语言DoubleML包中的默认设置。。估计结果如表2所示。5种模型中,datSca的系数均在1%的统计水平上显著为正,充分说明数据要素显著促进了中国服务业增长。

表2 双重机器学习估计结果

(2) 数据要素对服务业增长的贡献。以表1中的所有投入要素为自变量,第三产业增加值(serAdd)为因变量,训练默认超参数设置的随机森林(22)使用R语言ranger包。,采用PFI方法(23)其中损失函数为均方误差(MSE),即以变量值随机置换前后随机森林模型MSE的差值衡量变量重要性,因此PFI数值越接近0说明变量越不重要。测度包括数据要素在内的影响服务业增长的30种投入要素的重要性,从而确定数据要素对服务业增长的贡献。由于PFI算法结果具有一定随机性,因此本文重复运行1000次PFI算法,构成PFI数值的经验分布,并取中位数作为衡量要素重要性的数值,同时报告5%和95%分位数值,以判断要素重要性结果是否显著(24)5%和95%分位数值构成了置信水平为90%的置信区间。。最后,以某一要素的PFI数值在所有要素PFI数值加总中所占的比例作为该投入要素对服务业增长的贡献率。图1展示了影响中国服务业增长的30种投入要素的PFI数值点图,表3报告了影响中国服务业增长的前十位重要投入要素的PFI数值、5%和95%分位数值以及对服务业增长的贡献率。从表3可知,数据规模(datSca)的PFI数值为0.0460,对服务业增长的贡献率为17.99%,排名位于30种投入要素的第二位,说明数据要素是促进中国服务业增长的重要投入要素,对中国服务业增长具有重要贡献。结合上文结论,数据要素既显著促进中国服务业增长,又是促进中国服务业增长的重要投入要素,因此可以说明数据要素是推动中国服务业增长的新动能。至此,假说1得证。

图1 影响中国服务业增长的30种投入要素PFI排名点图

表3 影响中国服务业增长的前十位重要投入要素

(3) 数据要素在服务业增长中的边际收益。训练同上文一致的随机森林模型,使用PDP考察数据要素在服务业增长中的边际收益,如图2所示。图2中曲线表示的是,在其他投入要素不变的情况下,数据要素投入对服务业产出的非线性影响。横轴是以数据规模(datSca)代表的数据要素投入量,纵轴是以第三产业增加值(serAdd)代表的服务业产出量,因此该曲线实际上是总产量曲线,其斜率反映了数据要素投入对服务业产出的边际产量。可以看到,随着数据要素投入的增加,服务业产出增加的幅度越来越小(25)实际上,PDP也反映出数据要素对中国服务业增长具有促进作用。,因此数据要素在服务业增长中遵循边际收益递减规律,假说2得到证实。

图2 服务业产出对数据要素投入的偏依赖图

2. 稳健性检验

为验证基本分析结论是否稳健,本文尝试了一系列稳健性检验。一是,为避免不同机器学习模型对实证结论可能造成的影响,使用梯度提升森林(Gradient Boosting Machine,GBM)(26)使用R语言gbm包进行训练,其中树的数量设置为500(默认100),其他超参数设置使用默认值。重新进行估计,结果如表4列(1)所示。二是,为避免PFI和PDP方法在投入要素变量之间存在相关性的情况下可能发生的解释偏差,首先使用排列检验(permutation test)方法得到数据要素的PFI数值以及相应p值,其次使用在变量相关时依然稳健的节点纯度(Node Purity)方法计算数据要素的重要性,再次基于平均绝对误差(MAE)重新计算数据要素的PFI数值,最后使用变量相关时估计无偏的局部累积效应(Accumulated Local Effects,ALE)图识别数据要素的边际收益。结果如表4列(2)至列(4)以及图3所示。三是,为避免双向因果问题,将所有自变量滞后1期,重新进行估计,结果如表4列(5)所示。四是,为避免随机森林过拟合(27)即模型虽然样本内拟合优度较好,但样本外拟合优度较差的一种现象。对PFI和PDP解释可信性的影响,对随机森林模型进行拟合优度评估,将样本随机划分为训练集和测试集两部分(28)其中,训练集包括80%的样本,测试集包括20%的样本。,分别在全样本、训练集和测试集这3个数据集中以均方误差、OOB(29)OOB表示袋外(Out-of-Bag),是随机森林在训练每棵树的过程中未使用的观测。均方误差和OOB准R2为评估标准对随机森林模型(30)本文所使用的随机森林模型均由R语言ranger包的默认超参数生成,其中树的数量(num.trees)为500,节点分裂时的候选变量数量(mtry)为5,节点最小规模(min.node.size)为5。的预测性能进行评估,结果如表5和图4所示。

图3 数据要素投入与服务业产出的局部累积效应图

图4 训练集随机森林在测试集中的预测表现

表4 稳健性检验结果

表5 随机森林模型在不同数据集中的预测性能

从表4和图3可以看出,数据要素不仅显著促进中国服务业增长,也是影响服务业增长的重要投入要素,同时在服务业增长中遵循边际收益递减规律。因此,以上稳健性检验结果并没有改变本文的基本结论。从表5可知,测试集均方误差(31)测试集中均方误差评估的是由训练集生成的随机森林模型(即训练集随机森林)在测试集中的预测性能。(0.0209)相比于训练集均方误差(0.0043)并没有急剧上升,同时从图4可知,训练集随机森林对测试集中服务业产出的预测与实际值的散点紧紧围绕着45°线,表明随机森林模型具有很好的泛化性能,说明本文所使用的随机森林模型没有发生过拟合现象,较好地反映了数据生成过程,接近真实的数据要素投入与服务业增长的经济关系,从而PFI和PDP的解释是可信的。更为重要的是,基于机器学习允许纳入更多变量的优势,从相关经济理论出发,本文控制了较多的影响服务业增长的投入要素,不仅精确地识别了数据要素在服务业增长中的贡献和边际收益,更避免了其他混淆因素对数据要素效应估计的干扰,一定程度上缓解了由遗漏变量导致的内生性问题(32)另外,将所有自变量滞后1期,也在一定程度上缓解了由双向因果导致的内生性问题。。综上说明,本文的基本结论是稳健的。

3. 异质性分析

(1) 数据要素对生产性服务业和生活性服务业增长的不同影响。依据服务产品是否为中间品或最终消费品,服务业可划分为保障工业增长、进步、升级等的生产性服务业和满足居民物质或精神生活的生活性服务业(33)根据国家统计局公布的《生产性服务业统计分类(2019)》和《生活性服务业统计分类(2019)》,生产性服务业行业包括批发和零售业,交通运输、仓储及邮政业,信息传输、软件和信息技术服务业,金融业,租赁和商务服务业,科学研究和技术服务业;生活性服务业行业包括住宿和餐饮业,房地产业,水利、环境和公共设施管理业,居民服务、修理和其他服务业,教育,卫生和社会工作,文化、体育和娱乐业。。两种类型服务业所涉及的行业在发展特点、技术含量、产业融合度和对数据要素的依赖程度上有所不同,因此有必要对它们进行分别考察,以检验数据要素在这两类服务业增长中的异质性表现。

使用与基本分析相同的方法分别对数据要素在生产性服务业和生活性服务业增长中的CATE、贡献以及边际收益进行检验。其中,因变量为生产性服务业和生活性服务业的产出,通过分别加总这两类服务业下行业的增加值数据得到(34)需要说明的是,目前国家统计局只公布批发和零售业,交通运输、仓储和邮政业,住宿和餐饮业,金融业,房地产业的增加值数据,其他服务业行业的增加值数据参考夏杰长等(2019)的方法,依照某一行业在其他行业工资总额中所占的比例,使用第三产业增加值数据进行折算。。核心解释变量和控制变量与基本分析相同,但其中就业人数、平均工资、固定资产投资、资本存量使用行业层面的数据(35)其中,就业人数、平均工资、固定资产投资数据来自历年《中国劳动统计年鉴》《中国固定资产投资统计年鉴》《中国投资领域统计年鉴》,资本存量数据使用永续盘存法计算得到。加总折算为生产性服务业和生活性服务业层面的数据。估计结果如表6所示。

表6 数据要素对生产性服务业与生活性服务业增长的影响

从CATE估计值来看,生产性服务业为0.4511,生活性服务业为0.3950,均在1%的统计水平上显著,表明数据要素对生产性服务业增长的促进效应更强。从数据要素重要性来看,在生产性服务业中,PFI数值为0.0509,排名第二位,贡献率为18.25%;在生活性服务业中,PFI数值为0.0226,排名第五位,贡献率为8.92%,表明数据要素对生产性服务业增长的贡献更大。从偏依赖图来看,虽然数据要素在生产性服务业和生活性服务业增长中均遵循边际收益递减规律,但影响两类服务业增长的区间范围却不同,生产性服务业的增长区间为[-0.2, 0.3]个标准差,生活性服务业的增长区间为[-0.1, 0.15]个标准差,表明数据要素对生产性服务业增长的促进效果更优。综上分析,数据要素对生产性服务业增长的影响大于生活性服务业。这是因为随着数字技术发展,生产性服务业逐渐突破生产与消费同步的限制,为工业发展提供保障的同时,具备标准化生产、显著的规模经济以及可外包的特性(余泳泽和潘妍,2019),如此可能导致数据要素对生产性服务业增长的影响更为明显。

(2) 数据要素对服务业增长影响的动态演变过程。前文已然证实数据是促进中国服务业增长的重要投入要素,然而在不同时间阶段,数据要素对服务业增长的影响是否存在差异?为进一步探究数据要素对中国服务业增长影响的时间异质性,本文使用双重机器学习就数据要素对服务业增长促进效应的时间趋势进行估计。具体做法是,将数据规模(datSca)与年份(year)(36)即样本期2012-2019年。的交乘项(datSca×year)作为处理变量,同时将datSca和year加入到协变量中,其他设置同基本分析一致,结果如表7所示。另外,本文还将样本每两年作为一组划分为4个子样本,使用同基本分析一致的随机森林以及PFI、PDP方法检验不同时间段数据要素对服务业增长的贡献与边际收益,结果如表8所示。

从表7可知,5种模型对datSca×year的估计均为正,除了模型(1)在10%的统计水平上显著外,其余模型均在1%的统计水平上通过显著性检验,说明近年来数据要素对中国服务业增长的促进效应逐渐增强。从表8可知,就变量重要性而言,数据要素始终都是影响中国服务业增长的重要投入要素,同时数据要素的PFI数值与对服务业增长的贡献率越来越大;就偏依赖图而言,数据要素始终表现出明显的边际收益递减规律。综上,从数据要素对服务业增长影响的动态演变过程来看,随着时间的推移,数据要素对中国服务业增长的影响越来越显著。究其原因,随着互联网+、数字经济、数字技术等不断发展,数据要素应用的制度环境不断完善,数据挖掘水平不断提高,服务业企业不仅可以拥有更为丰富的数据资源,还可以使用更为先进的数据挖掘技术,进而可以从数据要素中更有效地提炼有价值的信息,使得数据要素对服务业增长的影响相较早期更为明显。

五、结论与政策建议

服务业增长对经济发展具有重要贡献,在传统要素推动中国服务业增长动能不足的情况下,寻找新动能就成为推动服务业进一步增长,进而促进中国经济高质量发展的有效途径。与此同时,数字经济时代下数据要素作为一种新兴的、独立的生产要素逐渐形成并富有重要价值,因而探究数据要素是否为推动中国服务业增长的新动能具有重要的理论与现实意义。为此,本文从理论与实证两个层面开展研究,不仅提出数据要素促进服务业增长的数据挖掘机制以及边际收益递减规律,同时建立包括30种要素在内的影响服务业增长的投入要素指标体系,并基于中国2012-2019年省际面板数据,使用双重机器学习、随机森林以及PFI和PDP两种“黑盒”模型解释工具,就数据要素对服务业增长的促进效应、贡献和边际收益进行了检验。另外,本文还就数据要素对生产性服务业和生活性服务业增长的异质性影响,以及对服务业增长影响的动态演变过程进行了考察。研究发现,数据要素不仅显著促进了中国服务业增长,更对中国服务业增长具有重要贡献,是推动中国服务业增长的新动能。同时,数据要素在服务业增长中还遵循边际收益递减规律。以上结论在尝试一系列稳健性检验后依然成立。就异质性而言,相比于生活性服务业,数据要素对生产性服务业增长的促进效应更强、贡献更大、促进效果更优。并且随着时间的推移,数据要素对中国服务业增长的促进效应逐渐增强、贡献越来越大。基于研究结论,本文提出如下政策建议。

就政策层面而言,政府需要注重扩大数据要素规模,加强数据挖掘人才培养,并促进数据要素有序发展。一是通过加快数据交易中心、云存储平台、5G基站、物联网等新基建建设,加快推进政务数据开放,加快培育数据要素交易市场,从而进一步扩大数据要素规模。二是加强数据挖掘人才的培养,一方面尽快完善高校数据挖掘、机器学习、人工智能等相关学科建设,另一方面加快建立社会化职业技术培训,加速相关人才技能转换。同时引导数据挖掘的产学研合作,以提高服务业产业数据挖掘人才水平和数据挖掘相关学科的研究水平。三是加快完善数据隐私保护、数据开发、数据要素交易等方面的法律法规建设,数据产权、数据收益分配和数据治理等方面的制度建设,进一步推进数据要素有序发展。

就企业层面而言,服务业企业需要积极采集数据资源,努力提高数据分析能力,进而有效提炼有价值的信息,促进服务业进一步增长,使得数据要素真正成为推动服务业增长的动能之一。与此同时,服务业企业还应当注重数据要素与数据劳动、数据资本等要素的结合,引进或培养数据清洗和数据分析等相关数据挖掘人才,采购具有高速读写能力的数据库、云计算、并行运算等相关数据挖掘设备,努力提高企业数据挖掘能力,在数据要素处于合理投入规模的同时延缓数据要素边际收益递减区间。尤其对于生活性服务业企业,更需要注重数据挖掘能力的提高,通过增加数据劳动供给和数据资本投资,提高数据分析能力、深化信息提炼水平,进而充分释放数据要素价值,提升数据要素对企业产出的影响,从而扩大数据要素推动企业产出增长的区间。

现代经济探讨2023年9期

现代经济探讨的其它文章: 从谋生到融入:社会网络何以提升农民工社会参与?※; 区域创新、数字经济与企业全要素生产率※; 人口老龄化降低货币政策有效性了吗※; 跨境资本流动冲击对股票市场输入性风险的影响研究※; 金融数字化与货币政策有效性※; 城乡关系演变视域下的农民合作社异化:表现属性、底层逻辑与矫正路径※

数据要素是推动中国服务业增长的新动能吗—— 来自机器学习的估计※

一、 引 言

二、 理论分析与研究假说

三、 研究设计