中国农业新质生产力发展水平测度与影响因素分析

2025-02-21 00:00:00吴展瞿廷鸿
上海管理科学 2025年1期
关键词:驱动因素机器学习

文章编号:1005⁃9679(2025)01⁃0059⁃08

摘 要: 发展农业新质生产力对于推动我国农业现代化和实现农业强国战略目标发挥重要作用。为客观量化影响农业新质生产力水平关键因素的非线性效应与重要性,提出一种基于机器学习方法的农业新质生产力发展水平测度和分析框架。利用极端梯度提升(XGBoost)算法、SHAP机器学习解释方法和TOPSIS模型测度和分析2012年至2022年中国农业新质生产力发展水平。此外,应用五折交叉验证对机器学习回归模型结果进行稳健性检验。最后采用SHAP模型深入分析影响我国农业新质生产力水平的关键驱动因素,探索促进我国农业新质生产力发展路径。研究结果表明:我国农业新质生产力水平整体呈上升趋势,但总体水平较低;科技创新人才、高新技术产业发展规模和数字经济发展水平是影响我国农业新质生产力发展水平的关键驱动因素,且具有显著的正向效应和非线性特征。

关键词: 机器学习;SHAP模型;XGBoost算法;农业新质生产力;驱动因素

中图分类号: TP 181;F 124 文献标志码: A

The Development Level of New Quality Productive Forces in Chinese Agriculture and Analysis of Influencing Factors: Empirical Evidence Based on the XGBoost Model

WU Zhan, QU Tinghong

(School of Economics and Management, Shanghai Ocean University, Shanghai 201306)

Abstract: The development of agricultural new quality productivity plays an important role in promoting the modernization of China's agriculture and achieving the strategic goal of a strong agricultural country.In order to objectively quantify the nonlinear effects and importance of key factors affecting the level of agricultural new quality productivity. The article aims to propose a framework for measuring and analyzing the development level of agricultural new quality productivity based on machine learning methods.The Extreme Gradient Boosting (XGBoost) algorithm, SHAP machine learning interpretation method and TOPSIS model are utilized to measure and analyze the development level of agricultural new quality productivity in China from 2012 to 2022. In addition, five⁃fold cross⁃validation is applied to test the robustness of the machine learning regression model results. Finally, the SHAP model is used to deeply analyze the key driving factors affecting the level of China's agricultural new quality productivity and explore the path to promote the development of China's agricultural new quality productivity. The results of the study show that: the overall level of China's agricultural new quality productivity level is on an upward trend, but the overall level is low; scientific and technological innovation talents, the scale of development of high⁃tech industry and the level of development of the digital economy are the key driving factors affecting the level of development of China's agricultural new quality productivity, and they have a significant positive effect and non⁃linear characteristics.

Key words: machine learning; SHAP model; XGBoost algorithm; new quality productivity; driving factors

0 引言

随着信息化和智能化的快速发展,发展新质生产力对实现传统生产力的质态跃迁具有重要意义[1]。2024年1月,习近平总书记在中共中央政治局第十一次集体学习时强调,发展新质生产力是推动高质量发展的内在要求和重要着力点[2],要加快发展新质生产力,扎实推进高质量发展[3]。因此,深入研究我国新质生产力发展水平动态演化特征以及关键驱动因素,对于推动我国经济高质量发展和实现中国式现代化具有重要意义。

目前,有关新质生产力的研究主要聚焦于新质生产力概念内涵、测度和影响因素分析三个方面。在新质生产力概念内涵研究方面,张林和蒲清平(2023)[4]认为新质生产力是在科技创新资源有效转化与深度整合之下,由战略性新兴产业和未来产业孕育出的,一种以高效能、高质量为特征的,对自然资源进行深度利用和改造的能力。姜朝晖和金紫薇(2024)[5]认为新质生产力以科技创新为核心驱动力,依托高层次创新型人才的智力支持,以战略性新兴产业和未来产业作为实践平台,同时以数字化、智能化和绿色化作为坚实基础,进而实现高效能与高质量兼具的先进生产力形态。在新质生产力影响因素方面,刘建华等(2024)[6]研究后发现每万人在校大学生数量、研发经费投入强度、高新技术产业产值、工业机器人安装密度等对新质生产力具有显著的正向影响。李松霞和吴福象(2024)[7]指出人力资源的积累、高技术产业的提升以及数字信息基础设施的完善,是新质生产力发展潜力的核心驱动力。孙丽伟与郭俊华(2024)[8]指出技术成果转化的困难、产业结构升级的滞后以及教育投入的不足,成为制约新质生产力进一步发展的关键因素。傅联英和蔡煜(2024)[9]在探究中国270座城市新质生产力发展水平时指出,产教融合程度不足、高新技术企业数量有限以及城市创新指数偏低,成为阻碍市域新质生产力提升的主要瓶颈。任宇新等(2024)[10]发现金融集聚可促进新质生产力提升,且具有区域异质性特征。韩文龙等人(2024)[11]通过构建空间杜宾模型对新质生产力的空间效应进行了检验,发现新质生产力不仅能够直接促进经济增长,并且具有显著的空间溢出效应。在新质生产力的评估方面,众多学者通过综合考量多维度、多属性的指标,对我国新质生产力进行了全面而深入的评价。王珏和王荣基(2024)[12]对新质生产力的劳动者、劳动对象和生产资料特征进行分析,并构建了一套综合指标体系对中国各省域的新质生产力水平进行了评估与分析。朱富显等(2024)[13]以新质劳动者、新质劳动资料及新质劳动对象作为三个核心视角,构建了一套测度体系,评估了中国地级市层面的新质生产力发展水平。卢江等(2024)[14]依据科技生产力、绿色生产力和数字生产力三个关键维度,构建了新质生产力综合评价体系,并对我国30个省级区域的新质生产力发展水平进行了测度。

近年来,随着大数据和人工智能技术的不断发展,以机器学习为代表的人工智能技术可以模拟人类的学习行为,重组现有知识以提高性能,显著提高复杂问题的评估准确性和解决效率[15]。越来越多的学者使用机器学习方法对生态环境、经济金融和工程机械等各个领域复杂问题进行评估[16⁃18]。如Hu W等人(2023)[19]表明随机森林算法更有利于处理复杂的非线性系统,客观地反映指标贡献。Rafiei-Sardooi E等人(2021)使用TOPSIS和机器学习的混合方法评估城市洪水风险,研究结果表明,城市排水密度和与城市排水的距离是城市洪涝灾害建模中最重要的因素。与传统的机器学习模型相比,极端梯度提升(XGBoost)是一种集成的梯度提升学习算法,可以揭示输入特征和目标结果之间的底层机制,能有效处理非正态、非线性的高维数据,具有预测准确率高、过拟合少等优势。Lei Y等人(2023)应用XGBoost模型量化了每个变量的对于每月火灾风险水平的重要性。此外,随着可解释机器学习变得越来越流行,机器学习方法可以从具有大量特征变量的大型数据集中提取独特见解。Wang M等人(2023)以深圳市为研究对象,构建XGBoost模型并结合SHapley加法解释图和部分依赖图,研究表明均建筑体积为影响城市洪涝易发性的关键参数,平均SHAP值为0.0107m,贡献率为9.70%。Tan B(2023)采用XGBoost和SHAP模型构建了中国金融稳定指数预警的可解释框架,研究结果表明,影响中国金融稳定的风险因素主要来自实体经济、金融机构、市场预期和房地产市场。Yao T(2023)等人通过可解释的机器学习对非洲地区可见性进行环境可持续性绩效评估,并将Shapley加法解释(SHAP)技术应用于量化和可视化环境可持续性的社会经济驱动因素。结果表明,除气象驱动因素外,人均收入也起着主导作用。

综上所述,可解释机器学习的可视化和量化能力,可以更深入地研究我国农业新质生产力水平的驱动机制,然而,机器学习技术在中国农业新质生产力研究中尚无先例。因此,文章将可解释机器学习方法引入综合评估领域对我国农业新质生产力发展水平进行评价,弥补了机器学习算法在农业新质生产力发展水平非线性因果分析中的差距,丰富可解释机器学习在我国农业新质生产力评价中的应用研究。文章以指标体系中各变量作为输入的特征变量,以TOPSIS模型测算的农业新质生产力水平值作为XGBoost回归模型的先验样本。并结合SHAP可解释框架分析影响我国农业新质生产力发展水平的关键因素,揭示各特征与农业新质生产力水平之间的因果关系与贡献。提供关于各地区资源配置如何影响农业新质生产力发展水平的见解,为我国农业高质量发展提供科学参考。

1 农业新质生产力内涵与指标体系构建

马克思认为,生产力是人们所具有的物质生产劳动的能力,是在劳动生产过程中利用自然、改造自然以满足人的需要的客观物质力量。目前,在农业新质生产力特征内涵研究方面,多数研究框架均围绕劳动力、劳动对象、劳动资料三个维度对农业新质生产力进行解构。在发展农业新质生产力的征程中,科技创新担任核心引擎的角色,创新实体间的协作固然关键,亦需农业高新技术产业、政府、高等院校等外部环境紧密融合,共同保障创新系统的和谐共生并推动创新步伐。基于此,为了准确把握我国农业新质生产力的发展态势,基于客观性、可比性和可得性的原则,文章从新质农业劳动者、新质农业生产资料、新质农业劳动对象、科技创新和绿色发展五个维度出发,构建了一个涵盖22个具体指标的农业新质生产力综合评价指标体系,以期更全面地反映农业新质生产力的特征与发展趋势,如表1所示。

2 研究方法与数据来源

2.1 XGBoost算法原理

极端梯度提升(XGBoost)算法是陈天奇等人近年来研究发展起来的一种机器学习集成算法。XGBoost算法是梯度提升决策树(Gradient Boosting DecisionTree,GBDT)的有效实现,通过整合多个弱学习器来分析学习误差,并在每次迭代期间更新样本权重,以获得强监督模型。同时将损失函数进行二阶泰勒展开和使用正则化项来防止模型过度拟合,对目标函数进行训练。该算法的数学原理如下:

[yi=k=1kfkxi, fk∈F" ] (1)

式(1)中其中k为CART树的数量,[fk]为函数空间F中的一个函数,XGBoost回归模型所需要的优化目标函数为:

[objθ=Lθ+Ω(θ)]" (2)

目标函数由两部分组成。第一部分为损失函数,它测量真实值与预测值之间的差值,并表示预测误差。

[objt=Lyi, yit+Ωft]" (3)

式(3)中:[Ωft]为正则化项,与树的复杂度有关;[Lyi, yit]为训练损失函数,用来衡量模型的预测能力,预测准确率越高L则越小。

2.2 熵权TOPSIS模型

TOPSIS模型称为优劣解距离法,是一种典型的多属性决策分析方法,旨在通过测量每个样本到正负理想解的欧几里得距离来评估系统的发展水平。TOPSIS模型的优点是对样本没有严格的要求,具有普遍适用性,在综合评价中应用较多。通过区分指标体系中的指标类别,并根据不同类型的指标进行正向化或负向化处理来计算各评价指标与最优及最劣向量之间的差距,其中wj为第j个属性的权重。

[D+i=j=1mwjZ+j-zij2 ,D-i=j=1mwjZ-j-zij2 ]" (4)

测度评价对象与最优方案的接近程度,贴近度Ci值越大,表明评价对象越优。

[Ci=D-iD+i+D-i]" (5)

2.3 SHAP解释模型

Lundberg和Lee于2017年提出了一种解释各种机器学习算法的SHAP模型。SHAP值起源于博弈论,旨在公平分配参与者在集体实现特定结果时的贡献。Shapley值具有许多有用的属性,例如效率、对称性、虚拟性和可加性。其中效率属性是指所有特征贡献的总和等于预测值和平均值之间的差值的要求;可加性的特性要求来自单个模型的预测聚合等于来自所有模型组合的预测。Shapley(1953)证明如果满足所有四个属性,则该解决方案是公平且独特的。Shapley值可用于机器学习,主要用于量化每个特征对模型预测的贡献,然后计算该特征在所有特征序列中不同的边际贡献,最后计算该特征的SHAP值。

[yi=ybase+f xi1+f xi2+…+f xip]" (6)

其中,ybase为目标变量在所有样本中的平均值;f(xij)为xij的SHAP值。SHAP值的优势在于它反映了每个样本中特征的贡献,并表明了效应的正负性。本研究采用SHAP模型对机器学习XGBoost算法的回归预测结果进行可视化分析。

2.4 数据来源

考虑到数据的可得性,本文选取2012年至2022年中国30个省份(不含西藏自治区和港澳台)的面板数据作为分析样本,数据来源于EPS数据库平台、CSMAR数据库、IFR公布的数据、企查查网站、《中国统计年鉴》《中国环境统计年鉴》《中国科技统计年鉴》《中国工业统计年鉴》等。对于个别缺失数据,运用插值法补全。经数据整理后得到完整有效的330组样本数据。

3 农业新质生产力发展水平测度

文章采用熵权TOPSIS方法测算了我国2012年至2022年30个省市的农业新质生产力发展水平,如表2所示。我国农业新质生产力发展水平整体呈上升趋势,平均农业新质生产力发展水平值由2012年的0.16上升至2022年的0.31,总体水平相对较低。

4 实证结果与分析

4.1 农业新质生产力水平分析框架与变量选择

为剔除与农业新质生产力水平相关性较小的变量,文章使用皮尔逊系数识别特征变量中的高、中、弱和不相关变量。本文以指标体系中各变量作为输入的特征变量,以TOPSIS模型测算的农业新质生产力水平得分值为先验样本的目标值,获得输入特征与农业新质生产力水平之间的因果关系和衡量各二级指标变量对农业新质生产力发展水平的贡献。选择农业绿色全要素生产率、农业Ramp;D人员数量和农业物联网企业称量数量等Pearson系数大于0.3的特征变量。

4.2 XGBoost回归模型结果

为方便复现本文实验,故将随机种子数设置为为100并采用XGBoost回归模型的默认参数,并在测试集中检验模型的精度和误差。本文使用XGBoost算法研究我国农业新质生产力发展水平驱动机制。使用训练集对模型进行训练,回归模型拟合的R2为0.89,如图1所示。

(1)图2显示了XGBoost模型的SHAP全局特征分析。特征的SHAP值越高,我国农业新质生产力发展水平就越强。从图中可以看出农业物联网企业数量、农业机器人企业成立数量和农业Ramp;D人员是影响我国农业新质生产力发展水平的重要因素,且具有显著的正向效应。

(2)单样本解释分析可以对特定地区的预测结果进行解释,图3为的单样本解释力图。SHAP将各个特征的作用表示为力量,蓝色表示对区域农业新质生产力发展水平的负向力量,红色表示对地区农业新质生产力发展水平的正向力量。对该地区的农业新质生产力发展水平评价来说,农业经济发展水平和农业Ramp;D人员等是显著的正向作用,农业机器人发展不足,最终评价结果为0.22。单样本解释有助于对特定地区进行评价分析,制定因地制宜的发展策略以及优化资源配置。

为了更直观地探究这些特征如何影响模型的输出,并提取有价值的信息来帮助相关政府部门采取有针对性的措施,本文使用SHAP值映射图来展示变量之间的非线性关系。与部分依赖关系图不同,SHAP值映射图的垂直坐标是SHAP值,而不是输出标签值。这导致了关键变量的阈值,以提高我国农业新质生产力发展水平。每个变量与我国农业新质生产力发展水平的提高之间存在明显的分割,这可以很好地反映边际效应的大小。

(3)农业数字化与农业新质生产力水平的映射关系。农业物联网企业成立数量是衡量农业数字化的重要指标之一,在图4中,当农业物联网企业数量在 [0,50] 区间内时,呈现快速上升趋势,负向效应不断减弱。当农业物联网企业数量超过50家时,对农业新质生产力具有显著的正向影响,但正向效应开始随着数量的增加开始趋缓。这说明,加快促进农业数字技术与农业产业全面深度融合,促进农业物联网企业高质量发展,夯实数字经济发展基础,培育数据要素市场,将对提高我国农业新质生产力发展水平起到积极作用。

(4)农业机器人企业数量与农业新质生产力的映射关系。由图5可知,当农业机器人企业数量在[0,5]的区间时,对农业新质生产力发展水平具有负向效应,且农业新质生产力发展水平的负向效应会随着农业机器人企业数量增长而降低。当农业机器人企业数量大于5家时,正的SHAP值反映出农业机器人企业数量对农业新质生产力发展水平有显著的正向影响。积极发展以人工智能、机器人等农业高新技术产业,将有助于推动我国农业新质生产力发展。

(5)农业Ramp;D人员数量与农业新质生产力水平的映射关系。由图6可知,当农业Ramp;D人员数量在[0,20000]区间内时,随着技术团队不断扩大,负向效应不断减少,当超过20000人时,正SHAP反映出农业Ramp;D人员数量数量对该地区农业新质生产力发展水平具有显著的正向影响。但大于4万人时,农业Ramp;D人员数量的正向效应开始呈现平稳。可以看出,随着科技领域的快速发展和竞争的加剧,单纯追求数量已经无法满足高质量创新的需求。科技人才队伍建设的道路上,需要实现从数量扩张到质量优化的转变。完善科技成果评价保护体制机制,激励科研人员与企业加强合作,激发农业新质生产力人才潜能。加大对从事新兴战略产业和未来产业等重大科研项目人才团队的激励,鼓励科研人员在新理论、新领域、新方法方面展开探索将有助于提高我国农业新质生产力发展水平。

5 结论与建议

文章基于农业新质劳动者、农业新质生产资料、农业新质劳动对象、科技创新和绿色发展五个维度22个指标构建农业新质生产力发展水平评价体系。采用TOPSIS-XGBoost模型与SHAP机器学习解释框架相结合,对我国30个省份农业新质生产力发展水平的动态演化及驱动机制进行分析,最后得到以下研究结果:2012至2022年农业新质生产力发展水平总体呈上升趋势,全国农业新质生产力平均水平从2012年的0.16上升到2022年的0.31;XGBoost回归算法在我国农业新质生产力发展水平评估中具有较好的适用性。通过对SHAP可解释工具结果的可视化分析,发现农业物联网企业数量、农业机器人企业成立数量和农业Ramp;D人员是我国农业新质生产力发展水平的重要关键驱动因素,且具有显著的正向作用。未来的研究可以更多地关注机器学习的可解释性分析,从而在保证准确性的同时,逐步展示机器学习的内在机制,从而将机器学习很好地应用于现实生活的各个领域。然而,这项研究也有一些局限性。首先,从指标构建的角度来看,本文在指标选择方面可能存在不足,在今后的研究中,可以考虑增加合适的指标来改善这个问题。其次,可以在现有基础上进一步研究,增加与政府政策实施相关的变量,以衡量政策实施对农业新质生产力发展水平的影响。

本文确认了农业物联网企业数量、农业机器人企业成立数量和农业Ramp;D人员等农业新质生产力发展水平评价指标将对我国农业新质生产力发展水平产生重大影响。鉴于此,本文提出相关建议,旨在促进我国农业新质生产力的提升。

第一,扩大农业高新企业规模,重视农业科技人才培养。农业高新技术产业作为推动科技创新、实现经济高质量发展的重要引擎,其从业人员数量和高新技术企业营业收入的增长,对于提升区域农业新质生产力发展水平具有不可替代的作用。因此,我们需积极调整产业结构,保留必要的传统产业规划,此外,农业科技人才队伍建设是驱动农业新质生产力形成的核心动力。随着科技领域的快速发展和竞争的加剧,单纯追求数量已经无法满足高质量创新的需求。科技人才队伍建设的道路上,需要实现从数量扩张到质量优化的转变。应加大人力资源投入,提升高校培养高素质人才的能力和水平,并营造优良的引才环境。同时,要深化产学研合作,促进创新要素的释放与融合,加大研发投入,特别是在基础研究和关键核心技术领域。

第二,促进农业数字化发展,推动前沿技术创新。在促进农业新质生产力发展的过程中,首先,加强农业物联网企业的发展。鼓励企业加强自主创新,推动软件产业向高端化、智能化、绿色化方向发展。其次,要支持人工智能技术的发展,加大对人工智能技术的研发和应用支持力度,推动人工智能技术在农业领域的广泛应用。最后,要推动大数据技术的发展,加强大数据技术的研发和应用,推动数据资源的共享和开放。同时,要加强数据安全和隐私保护,确保数据资源的合法合规使用。

参考文献:

[ 1 ] 杨广越.新质生产力的研究现状与展望[J].经济问题,2024(05):7⁃17.

[ 2 ] 郑新立.发展新质生产力的重大战略意义[J].中国党政干部论坛,2024(04):12⁃16.

[ 3 ] 习近平:加快发展新质生产力扎实推进高质量发展[J].领导科学,2024,(03):2.

[ 4 ] 张林,蒲清平.新质生产力的内涵特征、理论创新与价值意蕴[J].重庆大学学报(社会科学版),2023,29(06):137⁃148.

[ 5 ] 姜朝晖,金紫薇.教育赋能新质生产力:理论逻辑与实践路径[J].重庆高教研究,2024,12(01):108⁃117.

[ 6 ] 刘建华,闫静,王慧扬,等.黄河流域新质生产力水平的动态演进及障碍因子诊断[J].人民黄河,2024,46(04):1⁃7,14.

[7] 李松霞,吴福象.我国新质生产力发展潜力及驱动因素[J].技术经济与管理研究,2024(03):7⁃12.

[ 8 ] 孙丽伟,郭俊华.新质生产力评价指标体系构建与实证测度[J/OL].统计与决策,2024(09):5⁃11[2024⁃05⁃17].

[ 9 ] 傅联英,蔡煜.中国市域新质生产力:时序演变、组群特征与发展策略[J/OL].产业经济评论:1⁃18[2024⁃05⁃17].

[10] 任宇新,吴艳,伍喆.金融集聚、产学研合作与新质生产力[J/OL].财经理论与实践:1⁃8[2024⁃05⁃17].

[11] 韩文龙,张瑞生,赵峰.新质生产力水平测算与中国经济增长新动能[J/OL].数量经济技术经济研究,1⁃22[2024⁃05⁃19].

[12] 王珏,王荣基.新质生产力:指标构建与时空演进[J].西安财经大学学报,2024,37(01):31⁃47.

[13] 朱富显,李瑞雪,徐晓莉,等.中国新质生产力指标构建与时空演进[J].工业技术经济,2024,43(03):44⁃53.

[14] 卢江,郭子昂,王煜萍.新质生产力发展水平、区域差异与提升路径[J/OL].重庆大学学报(社会科学版):1⁃16[2024⁃05⁃17].

[15] CHENHONG X, GUOFANG Z. The spatiotemporal evolution pattern of urban resilience in the Yangtze River Delta urban agglomeration based on TOPSIS⁃PSO⁃ELM[J]. Sustainable Cities and Society, 2022, 87: 104223.

[16] MA M, ZHAO G, HE B, et al. XGBoost⁃based method for flash flood risk assessment[J]. Journal of Hydrology, 2021, 598: 126382.

[17] ZHANG T, ZHU W, WU Y, et al. An explainable financial risk early warning model based on the DS⁃XGBoost model[J]. Finance Research Letters, 2023, 56: 104045.

[18] JIA⁃QI L, YUN⁃WEN F, DA T, et al. Operational reliability evaluation and analysis framework of civil aircraft complex system based on intelligent extremum machine learning model[J]. Reliability Engineering amp; System Safety, 2023, 235: 109218.

[19] HU W, ZHANG S, FU Y, et al. Objective diagnosis of machine learning method applicability to land comprehensive carrying capacity evaluation: A case study based on integrated RF and DPSIR models[J]. Ecological Indicators, 2023, 151: 110338.

收稿日期:2024⁃09⁃22

作者简介:吴展(2000—)男,安徽池州人,研究方向:农业经济、机器学习;瞿廷鸿(1999—),男,江苏镇江人,上海海洋大学经济管理学院硕士研究生,研究方向:农业经济。

猜你喜欢
驱动因素机器学习
城市化包容性发展的综合测度及驱动因素研究
抚仙湖地区土地利用变化及驱动机制研究
生产性服务业集聚的驱动因素与模式研究
基于词典与机器学习的中文微博情感分析
辽宁省乡村旅游发展驱动力因素分析
商业经济(2016年3期)2016-12-23 13:19:55
公司EVA现状及EVA驱动因素分析
基于机器学习的图像特征提取技术在图像版权保护中的应用
基于网络搜索数据的平遥旅游客流量预测分析
时代金融(2016年27期)2016-11-25 17:51:36
前缀字母为特征在维吾尔语文本情感分类中的研究
科教导刊(2016年26期)2016-11-15 20:19:33
中国企业管理创新的驱动力