李争艳, 王向前
(安徽理工大学 经济与管理学院, 安徽 淮南 232001)
科技创新是转变经济发展方式和调整经济产业结构的重要支撑,其效率的高低是直接反应科学技术运用与科技创新能力的重要指标。因此准确地预测一个国家或者某个地区的科技创新效率具有相当重要的现实意义。
关于科技创新效率评价方面,李鸿禧等通过DEA-t检验寻找出显著影响企业科技创新效率的关键指标:规模以上工业企业R&D经费内部支出、财政科技经费投入、科技从业人员数、技术市场成交额、规模以上工业企业新产品产值[1]。朱鹏颐等运用超效率数据包络分析视窗模型分析研究对象科技创新效率的动态变化[2]。章文光等综合考虑创新的经济产出、科技产出和社会环境效益,构建DEA的CCR和BCC模型测算各个城市的综合效率[3]。关于支持向量机(SVM)优化方面,周晓辉等提出了混沌粒子群优化算法对支持向量回归算法中参数c和g进行优化,克服了传统时间序列模型仅局限于线性系统的缺点[4]。路世昌等提出基于模糊信息粒化(FIG)支持向量机预测模型,并通过交叉验证法优化选取支持向量机参数[5]。曹志强等运用平均绝对误差和均方误差比值作为精度检验标准,从而判断基于遗传算法的支持向量回归机(SVR)比ARIMA和灰色预测具有更优的预测效果[6]。Haibo Liang为了实现钻井风险的实时动态评估,提出了一种基于粒子群优化的模糊多级算法,以优化支持向量回归机[7]。大多数论文关注于对研究对象的效率评价,而Quan Zhang等提出了一种新的效率预测模型,该模型首次将信息粒化和支持向量机与DEA模型相结合,以评估决策单元的未来效率[8]。
目前,众多学者关于科技创新效率评价方面取得了较多的研究成果,但是较少涉及效率预测;同时针对SVM参数优化方面,大多研究只采用单一方法对粒化后的数据进行处理。因此针对上述研究的不足,本文结合FIG-SVR和DEA模型对决策单元的未来效率进行评价,同时采用两种参数优化方法分别对模糊粒子进行SVR参数优化,以提高模型预测精度。
由于自身特征的原因,单一的SVR模型只能得到未来一年的效率指标预测值,这不利于决策者关于未来科技创新效率变化趋势的把握。模糊信息粒化是将整体样本划分为多个子样本进行研究,同时能够使子样本数据仍保持原样本数据特性,将之引入SVR模型中能够得到更多时间段的预测值,为决策者提供更多的有效信息。
1979年,L.A.Zadch教授基于模糊集合理论首次提出了信息粒的概念,即将一组具有相似特征的研究元素组合在一起作为一个整体或者将整体划分为部分进行研究,每个组合或者划分后的部分则为信息粒[9~10]。在很多研究中非模糊信息粒化不能准确描述研究对象的特征,因此本文选择模糊信息粒化进行数据处理,主要包括两个步骤:划分窗口和模糊化。划分窗口是将时间序列划分为若干个子序列,并将这些子序列作为若干个操作窗口[11]。
假设时间序列X={x1,x2,…,xk} 是单一窗口,则模糊化就是在给定的序列上建立一个模糊粒子P使之能够合理地描述X的模糊概念G。A是模糊概念G的隶属函数,确定函数A的过程在一定程度上便是模糊化的过程。本文采用的是三角形模糊粒子,其隶属函数如下所示:
其中,a描述的是在相应窗口中原始数据变化的最小值,m反映的是变化的平均水平,而b表示的是原始数据变化的最大值。
20世纪90年代,Vapnik等提出的支持向量机适用于处理小样本数据,能够有效克服维数灾难和局部极小点的问题[12-13]。SVM通过定义最优回归超平面来解决线性回归问题,通过引入核函数来解决非线性问题[14]。SVR是SVM在回归和函数逼近问题上的应用,对于给定的训练样本:
T={(x1,y1),(x2,y2),…(xl,yl)},xi∈X=Rn,yi∈Y=R,i=1,2,…l
SVR可以寻找到最优函数y=f(x)从而推测出与x对应的y值。
SVR通过使用非线性映射算法φ将低维线性不可分的样本映射到高维特征空间使其线性可分,从而能够在高维特征空间中对样本的非线性特征采用线性算法进行线性分析[15]。SVR的函数表达式为:
其中,K(xi,xj)=φ(xi)·φ(xj)为核函数.相较于其核函数,高斯核函数K(xi,xj)=exp{-g‖xi-xj‖2}能够更好地处理非线性样本,同时具有更低的超参数复杂度[14],因此本文选择高斯核函数构造支持向量回归机。
1.支持向量机的参数优化方法
惩罚参数c以及核函数参数g对于支持向量回归机的预测效果有很大的影响 ,因此为了得到良好的回归效果,需要对这两个参数进行优化选取。本文选取K折交叉验证法和遗传算法对支持向量机的参数进行优化,并比较这两种方法的优化效果,确定c和g的最优值。
(1)K折交叉验证法。K折交叉验证法是将原始数据划分成K个子样本,然后每次选取一个不同的子样本作为测试集,其他K-1个样本作为训练集。将经过K次训练得到的K个结果取均值作为评价该模型性能的指标。
(2)遗传算法。遗传算法是通过模拟自然选择进行最优解搜索,针对初代产生的“种群”,按照优胜劣汰的原则对样本进行筛选[17]。该方法借助遗传算子进行组合交叉和变异等操作,并根据个体的适应度大小对样本进行选择从而保留更“优秀”的样本。通过循环反复的筛选,使得最终进行代数可作为原问题的近似最优解。
数据包络分析被广泛用于评估多投入多产出的相对效率。该方法通过构建线性规划模型从而确定有效生产前沿,并认为处于生产前沿上的决策单元的效率最优[18]。
设有l个决策单元,每个决策单元都有m种投入和n种产出。第r个决策单元的第i个投入量与第j个产出量分别为xir,yjr,该决策单元的投入产出指标权重为λr。评价第k个决策单元的具体函数模式如下所示:
si-,sj+≥0,λr≥0,r=1,2,…,n
该模型最优解分为以下三种情况:当θ=1,si-=0,sj+=0 ,决策单元为DEA有效;当θ=1,si-和sj+存在任一大于0,则决策单元为弱DEA有效;当θ<1时,则该决策单元为DEA无效。
模型预测流程如图1所示。从图1可以看出,效率预测过程包括五个步骤:(1)获取浙江省历年科技创新投入产出指标的数据;(2)利用三角形模糊信息粒化模型分别对上述各组数据(R&D人员投入、R&D经费投入、技术市场交易和专利授权数)进行处理得到Low、R、Up三组数值;(3)采用K折交叉验证法和遗传算法分别对每一项数据处理所得的Low、R、Up进行参数寻优,确定最优c和g,以提高SVR模型预测准确度;(4)利用c和g对SVR模型训练,建立最优回归预测模型,进而预测出浙江省未来一段时间内的科技创新投入产出指标数值;(5)根据预测的投入产出数值,利用DEA模型进行计算从而可得到未来一段时间内的科技创新效率;同时,结合步骤(1)所获取的往年数据,可计算出浙江省历年的科技创新效率。
图1 基于FIG-SVM的DEA模型预测流程图
本文数据来源于浙江省统计局和中国统计年鉴,选取1990~2018年浙江省R&D人员投入、R&D经费投入、技术市场交易和专利授权数作为科技创新效率研究指标并进行数据分析[19]。其中,投入指标为R&D人员投入和R&D经费投入,产出指标为技术市场交易和专利授权数。
本文选取三角形模糊粒子对DEA模型的投入产出数据分别进行模糊信息粒化,粒化窗口大小为2且共有14个窗口。其中,Low,R,和Up分别对应模糊粒子隶属函数的三个参数a,m,b,它们分别表示每个模糊粒子数据变化的最小值、平均值和最大值。对原始数据进行模糊粒化后的结果如图2所示。
图2 数据模糊信息粒化结果
1.SVR参数优化处理
核函数参数的选择对支持向量机泛化能力有较大的影响,因此对SVR参数进行优化处理是必不可少的过程。本文利用K折交叉验证法和遗传算法对惩罚参数c和高斯核函数参数g进行寻优处理,并比较这两种方法所得的优化结果进而确定参数c和g。相比于只采用单一的优化方法,这种参数优化处理能够更好地选择SVR参数,提升模型预测精度。
(1)K折交叉验证法。利用K折交叉验证法分别对R&D人员投入、R&D经费投入、技术市场交易额和专利申请授权数粒化后的Low、R、Up进行参数优化。使用Matlab R2018a软件运行,用函数SVMcgForRegress实现参数c和g的优化,其具体形式如下所示[20]:
[mse,bestc,bestg]=SVMcgForRegress(train_label,train,cmin,cmax,gmin,gmax,v,cstep,gstep,msestep)
以R&D人员投入模糊信息粒化后数据最低值Low为例,通过K折交叉验证对SVM模型进行优化,图3的等高线图和3D视图为参数寻优过程的展示。
(a)参数选择等高线图 (b)参数选择3D视图
(2)遗传算法。利用遗传算法分别对R&D人员投入、R&D经费投入、技术市场交易额和专利申请授权数粒化后的Low、R、Up进行参数优化。使用Matlab R2018a软件运行,用函数gaSVMcgForRegress实现参数c和g的优化,其具体形式如下所示[20]:
[BestMSE,Bestc,Bestg,ga_option]=gaSVMcgForRegress(train_label,train_data,ga_option)
以R&D人员投入模糊信息粒化后数据最低值Low为例,通过遗传算法对SVM模型进行优化,图4为参数寻优过程的展示。
图4 遗传算法参数选择结果图
(3)优化算法拟合结果比较。利用K折交叉验证法和遗传算法对每一个指标模糊信息粒化后的Low、R、Up进行参数优化,并比较这两种方法的拟合结果,选择拟合效果更好的预测数值。以R&D人员投入模糊信息粒化后数据最低值Low为例,利用K折交叉验证法可得该模糊粒子SVR机参数c和g为724.077和0.015 625,利用遗传算法得到的结果为79.430 3和0.023 841 9,比较两种方法优化后的均方误差和相关系数最终确定参数c和g。具体内容如表1所示。
表1 优化算法拟合结果比较
从表1可以看出,两种优化方法相关系数大小相近,但是K折交叉验证法的均方误差相对于遗传算法来说要略微小一点,因此对于R&D人员投入模糊信息粒化参数Low而言,选择K折交叉验证法进行参数优化的效果更为理想。利用该方法优化后得到的均方误差比较小,相关系数与1十分接近,因此可以表明预测曲线拟合效果较好。
本文针对每一指标均采用两种方法进行参数优化,最终优化方法以及最优c和g的参数选择结果如表2所示。
表2 各指标模糊信息粒子参数优化结果
表2列出的最优c和g均是根据本节(3)中所述内容进行选择的,通过对每组数据的均方误差和相关系数大小进行比较从而确定最优参数的数值。
2.基于SVR对粒化数据的回归预测
针对R&D人员投入模糊信息粒化参数Low,利用K折交叉验证法得到的参数训练支持向量机对之进行回归预测,原始数据与回归预测数据对比如图5所示。
图5 原始数据与回归预测数据对比
从图5可以看出,除去个别偏差点外,原始数据与预测数据大小十分接近。针对该组数据,基于K折交叉验证法的支持向量机预测模型具有较高的预测精度,因此选择合适的优化方法能够有效提升回归预测准确率。
利用选择后的最优惩罚参数c和核函数参数g训练支持向量回归机模型,进而得出科技创新效率各项指标2019年和2020年的预测结果。具体数值如表3所示。
表3 技术创新效率指标预测结果
1.SVR参数优化处理
根据4.2.1所述步骤对原始数据采用K折交叉验证法和遗传算法进行参数寻优,两种方法优化后的均方误差和相关系数如表4、表5所示。
表4 优化算法拟合结果比较
比较MSE和R2大小,根据MSE越小表明预测结果误差越小,R2越大表明预测相关程度越大这两个原则最终确定参数c和g,具体内容如表5所示。
表5 各指标模糊信息粒子参数优化结果
SVR模型的预测精度与参数的选择有关,参数的选择与优化后的MSE和R2有关,因此比较模型的这两个指标可以判断模型预测效果的优劣,其具体内容如表6所示。
表6 FIG-SVR模型与SVR模型参数优化效果比较
从表6可以看出,FIG-SVR模型参数优化后的MSE要更小,同时R2大部分都比SVR模型更大,因此可以得出,相比于SVR模型,FIG-SVR模型在预测准确性方面表现得更好。
2.基于SVR对原数据的回归预测
利用上文得到的c,g建立回归预测模型,得到各项指标预测结果,具体内容如表7所示。
表7 技术创新效率指标预测结果
从数据处理结果来看,仅使用支持机模型应用于科技创新效率投入产出指标的预测是可行的,但不足之处在于,采用该方法仅预测出未来一年的指标中间值。因此,根据预测精度及预测范围的大小,后文将选取FIG-SVR模型预测所得的数据进行效率计算。
通过利用FIG-SVM模型预测出了2019—2020年浙江省R&D人员投入、R&D经费投入、技术市场交易额和专利申请授权数,同时结合1990—2018年的科技创新投入产出的相关数据,运用DEAP软件计算1990—2020年浙江省科技创新效率。具体效率变化趋势及预测范围如表8所示(图中加黑部分表示2019和2020年的科技创新效率预测值)。
表8 浙江省科技创新效率变化及预测
从表4可以看出浙江省历年科技创新效率和各阶段平均效率的变化。其中,2019和2020年浙江省科技创新效率预测的最小值、平均值和最大值分别为0.873、0.886和1。结合历年效率来看,2013—2018年浙江省科技创新效率与其他阶段相比有明显的提高,这与2012年提出的创新驱动发展战略密不可分;同时从预测结果中可以看出,2019和2020年的平均效率会略低于2014—2018年,但大体上仍然与之保持相同水平;与2018年相比,预测值表明2019和2020年的科技创新效率有所下降。将指标预测值与2018年实际数据对比可以发现,未来的R&D人员平均投入、专利申请授权数量会降低,此外全国疫情的爆发对2020年浙江省的经济生产及科技创新有着可预见性的影响。因此,浙江省仍需要对各项投入进行调整以提升科技创新效率,推进经济高质量发展。本文选取的是浙江省29年的科技创新效率指标进行回归预测,如果能获得更多的样本进行分析,则能够取得更为可靠的效率预测结果。
本文将模糊信息粒化、支持向量回归机以及DEA模型相结合,从而能够有效预测下一个窗口的数值范围,预测年数的多少取决于窗口大小划分。由于支持向量回归机模型的预测精度在很大程度上取决于核函数参数和惩罚参数的选取,因此本文比较K折交叉验证法和遗传算法进行参数优化后的拟合效果,然后选择效果更好的参数对SVR进行训练,从而更进一步提升模型预测精度。
实验证明,与SVR模型比较,FIG-SVR模型更准确地预测了浙江省科技创新效率未来一段时间的投入产出指标,同时结合DEA模型计算未来一段时间内的效率,因此该模型的运用在一定程度上能够为决策者提供具有参考性的决策依据,从而避免资源浪费并提高资源利用率。为了进一步优化预测模型,提高效率预测精确性,未来的研究工作会注重于对数据的信息粒化处理以及支持向量机核函数的选择。