蔡晓倩, 林 翊
(福建师范大学 经济学院, 福州 350108)
对福建省海洋经济发展进行综合评估分析,探究海洋经济发展的总体情况和内部各子系统之间的关系,并进一步探索海洋经济发展的主要驱动因素,将有助于准确把握海洋经济的可持续发展状态。
目前学术界对海洋经济发展水平的研究通常采用主客观赋权评价法来对构建的综合指数进行度量与分析,如鲁亚运等[1]的信息熵权法、Song等[2]的德尔菲法、朱坚真崔曦文[3]的TOPSIS熵权法、赵晖等[4]的层次分析法以及程曼曼等[5]的全局熵权法,然而海洋经济发展综合指数编制过程中指标之间往往存在多重共线性问题,且海洋经济发展同评价指标之间通常存在复杂的非线性关系,简单地使用线性模型去构建发展指数可能无法客观地反映实际经济规律。值得关注的是,随着大数据时代的到来,机器学习中很多算法能够很好地克服回归过程中的非线性问题[6],但已有的文献仅限于在回归模型中去寻找指标与构造的线性指数的拟合关系[7-9],根源上还是没有消除综合指数的共线性问题。
基于此,从四个方面进行探索:①为了避免综合指数编制过程中存在的共线性问题,区别于以往普遍将融合的综合指数作为被解释变量进行分析,直接将海洋GDP作为被解释变量来反映福建省海洋经济发展水平。②借鉴《福建省“十四五”海洋强省建设专项规划》中的子系统设置,从6个维度来评估福建省海洋经济发展水平,并借助随机森林算法来规避指标间的多重共线性问题。此外,通过该算法进一步测算出评价体系中各指标的贡献度,以此来探索福建省海洋经济发展的驱动因素。③区别于常用的线性回归模型,借助4种多层感知机模型来验证并拟合不同贡献度阈值下筛选出来的评价指标与海洋经济发展水平之间的非线性关系,由此可以得到更为科学合理的福建省海洋经济发展评估体系。④借助实证结果对福建省海洋经发展驱动因素进行更深层次的分析,对发展的薄弱环节提出对策建议,以促进福建省海洋经济综合实力的进一步提升。
指标选择将遵循综合指标体系构建原则[10],基于《福建省“十四五”海洋强省建设专项规划》中的子系统设置,依据目的性、完备性、可操作性、显著性与动态性的设计原则,进一步从海洋科技创新、海洋对外开放、海洋产业体系、海洋生态环境、海洋基础设施以及海洋社会民生6个层面(系统层)来评估福建省海洋经济发展水平。构建的初始海洋经济发展评价指标体系如表1所示。
1.2.1 数据来源
数据主要来源于2006—2019年《中国海洋统计年鉴》《中国能源统计年鉴》《福建省统计年鉴》《福建省国民经济和社会发展统计公报》《中国港口统计年鉴》以及福建省文化和旅游厅等相关资料。其中,缺失数据通过K近邻算法处理,即将数据集合中每一个记录进行分类,最后通过K近邻算法训练模型预估缺失值。
1.2.2 训练集与测试集划分
基于矢量均值相似性的样本分割法,提出了一种适用于回归任务的样本集分解方法,可以在划分训练集和测试集时使得两者在统计意义上保持一致性。
第一步:假设采集到的样本集为D={(x1,y1),(x2,y2),…,(xm,ym)},其中yi为第i个样本的被解释变量(因变量GDP),m为样本数。
1.2.3 数据标准化处理
为消除数据中不同代谢指标的量纲和值域差异,使用Z-score标准化方法处理,使指标数据在0与1之间取值。
(1)
随机森林(random forest,RF)是由Breiman于2001年提出的一种监督学习算法[11]。实际应用中,RF结合了多个决策树基学习器,借助于集成学习方法来为复杂的分类与回归问题提供解决方案,且通常具有如下优点:在许多主流公共数据集上,相对其他算法RF显示了较好的性能;RF并不需要通过降维方式来处理高维数据的多重共线性问题,训练完成后,可以输出每个特征的重要度;RF对泛化误差(generalization error)使用的是无偏估计,模型泛化能力强,训练速度快,较易实现并行化处理方法。随机森林回归流程如图1所示。
图1 随机森林特征变量贡献率计算流程
多层感知机(multilayer perceptrons,MLP)主要由输入层,隐藏层和输出层构成,且不同层之间是全连接的。MLP网络结合梯度下降算法,通过多轮的前向和反向传播过程实现参数(权值、阈值与偏置项)的更新,且对任何连续非线性结构函数都具有较好的拟合效果。采用Kolmogorov定理[12]来确定网络结构。该定理指出给定任一连续函数F:Ud→He,即F(X)=Y,其中U为闭区间[0,1],那么F可以精确地用一个三层前向网络实现。此网络的输入层有q个神经元,隐层有2q+1个神经元,输出层有1个神经元,如图2所示。
图2 多层感知器回归结构
多层感知机建模流程如下:
首先,将输入解释变量提供给输入层神经元,然后将信号逐层向前传,直到输出层产生预测结果。
其次,计算输出层的均方误差,再将误差逆向传播至隐层神经元,然后根据隐层神经元的误差来对连接权和阈值进行优化(学习率设置为η=0.1)。
最后,该迭代过程循环进行,直到累计均方误差E<ε(ε=0.1)为止,最终产生的最优化连接权与阈值构成了非线性回归函数的系数。
使用福建省海洋GDP作为随机森林算法中的目标值,并运用随机森林算法对所有数据进行训练,随机森林的一个重要功能是测算特征变量的重要度,度量单个特征的重要度主要是通过计算变更该特征排序后整个森林袋外数据[13](out of bag,OOB)均方误差均值[OOBMSE(Xjpermuted)]与不变更该特征排序整个森林OOB均方误差均值(OOBMSE)的差值来衡量的,即OOBMSE(Xjpermuted)-OOBMSE,详细表达式如下:
(2)
(3)
当特定变量Xj的重要性越大,则其求出来的OOBMSEt(Xjpermuted)-OOBMSEt的差就越大。通过Python仿真可知最优(袋外误差最小)决策树数量为39,如图3所示。
图3 OOB袋外数据错误率估计
在最优决策树数量下测算出各指标的贡献度,如表2所示。
表2 指标贡献度
从表2可以看出,由随机森林算法训练出来的指标贡献度有较大差别。从单个指标贡献度排序来看,排名前5的分别是海洋产业结构优化规模(X24)、国际旅游外汇收入(X26)、海洋产业结构转型升级规模(X23)、人均海水产品产量(X42)和接待入境游客人数外国人(X30),其中指标X24和X23属于海洋产业体系系统,总贡献率为16.97%,指标X26和X30属于对外开放系统,总贡献率为15.02%,指标X42属于社会民生系统,贡献率为6.11%。由此可以看出,海洋产业结构、海洋对外开放和社会民生对福建省海洋经济发展发挥着重要推动作用。从指标体系系统层来看,当阈值设定为0.01(贡献度大于1%)时筛选出来的指标体系为科技创新系统(X2、X5、X7、X8合计贡献15.10%)(X12、X17、X18合计贡献7.03%)、产业体系系统(X23、X24合计贡献16.97%)、对外开放系统(X26、X27、X29、X30合计贡献18.43%)、基础设施系统(X32、X33、X34、X35、X37、X38、X39合计贡献23.00%)和社会民生系统(X40、X41、X42合计贡献13.13%);当阈值设定为0.02(贡献度大于2%)时筛选出来的指标体系为科技创新系统(X2、X5、X7、X8合计贡献15.10%)、生态环境系统(X12、X17合计贡献5.97%)、产业体系系统(X23、X24合计贡献16.97%)、对外开放系统(X26、X29、X30合计贡献17.29%)、基础设施系统(X32、X33、X34、X35、X38、X39合计贡献21.83%)和社会民生系统(X40、X41、X42合计贡献13.13%);阈值为0.03(贡献度大于3%)时筛选出来的指标体系为科技创新系统(X7、X8合计贡献9.99%)、生态环境系统(X17合计贡献3.16%)、产业体系系统(X23、X24合计贡献16.97%)、对外开放系统(X26、X30合计贡献15.01%)、基础设施系统(X32、X34、X39合计贡献13.67%)和社会民生系统(X41、X42合计贡献10.55%)。
考虑到回归问题中可能存在的非线性问题,将采用4种(identity激活、relu激活函数、sigmoid激活和tanh激活)多层感知机网络来进一步验证筛选出来的指标体系合理性。其中,随机森林算法的阈值分别设定为0.01、0.02和0.03。此外,为了更直观地看出训练过程是否存在过拟合问题,将训练集以及测试集的衡量指标进行了分开度量。验证结果表3所示。
表3 多层感知机网络验证回归结果比较
由表3可知:①不同阈值下 identity激活函数的拟合性能基本都能达到最优,拟合优度最高能达到0.99,这验证了筛选出来的评价指标与实际海洋经济发展存在非线性关系,且表明了非线性感知机网络具备良好的拟合效果;②比较不同激活函数在贡献度大于1%、2%和3%指标体系中测试集的均方误差(MSE)、平均绝对误差(MAE)和拟合优度(R2)可知,贡献度大于3%的指标体系拟合结果最好,说明随机森林算法按照阈值为0.03时选出来的指标体系对福建省海洋经济发展水平具有较强的解释能力;③相同阈值相同激活函数下训练集与测试集在同一度量指标的差距并不大,进一步验证了感知机网络模型没有出现过拟合问题。
由表2与表3可知,当设定阈值为0.03时,筛选出来的指标体系中科技创新系统贡献率为9.987 3%、生态环境系统贡献率为3.157 9%、产业体系系统贡献率为16.972 4%、对外开放系统贡献率为15.014 7%、基础设施系统贡献率为13.668 2%以及社会民生系统贡献率为10.548 7%。从各子系统的贡献度看,产业体系系统、对外开放系统和基础设施系统对福建省海洋经济发展水平具有较大的贡献,其次是社会民生系统和科技创新系统,最后是生态环境系统,这也间接表明了福建省海洋经济的发展在科技创新与生态环保上存在明显的短板效应。从各子系统的核心驱动因素看,指标X24(海洋产业结构优化规模)在产业体系系统中发挥着主要驱动作用,指标X26(国际旅游外汇收入)是对外开放系统主要驱动因素,指标X32、X34和X39(分别是铁路运营密度、港口生产用码头泊位和移动电话基站)均对基础设施系统产生重要的推动作用,指标X42(人均海水产品产量)是社会民生系统的驱动因素,指标X7、X8(海洋相关毕业生人数(专科及以上)和科研机构中研究生以上学历人员占比)是科技创新系统的主要动力因素和指标X17(海洋自然保护区面积比重)是生态环境中最重要的影响因素,在实际经济活动与政策制定中,可以着重观察这些指标的动态变化情况。
为分析福建省海洋经济发展水平,寻找福建省海洋经济发展的驱动因素,依据评价指标的构建原则,在借鉴前人的研究的基础上,构建了6个子系统42个指标的福建省海洋经济发展水平初始评价模型。首先,通过袋外数据误差率寻找到最优决策树数量,并运用随机森林算法对初始评价体系进行测算,规避了指标之间存在的共线性问题,统计计算后进一步得到了福建省海洋经济发展在各个子系统中的主要驱动因素以及各子系统的贡献度。接着,依据不同的贡献度阈值(0.01、0.02和0.03)筛选出了3种不同的海洋经济评价指标体系。随后,借助4种多层感知机网络对筛选出来的评价体系进行回归拟合,验证了指标与经济发展水平之间的非线性关系,且得出了贡献度阈值为0.03时的指标评价体系能够更好地诠释福建省海洋经济的发展状况。
上述实证结果表明,福建省海洋科技创新系统和海洋生态环境系统存在明显的短板效应,由此提出如下的建议。
1)针对福建省海洋科技创新水平较低问题。一是打造良好的科技创新环境。从省、企、校三方同时推进,加快建设海洋领域省创新实验室,鼓励与支持涉海企业与“一带一路”沿岸国家或地区企业共建联合共建科技创新平台,推进厦门大学、福州大学和福建师范大学等高校涉海实验室建设。二是解决海洋人才引进和培养问题。鼓励和引导涉海企业及高校等平台引进海洋领域的高层次人才,集中力量支持福建省现有涉海专业的发展,支持各高校做强涉海学科。三是发挥政府的主导作用。完善并出台人才引培、科研项目资金支出等相关政策措施,提升科研成果的转化率。如山东省对海洋领域拥有关键核心技术、全职引进的海外顶尖人才团队,省级财政给予最高5 000万元综合资助或6 000万元直投股权投资支持。
2)针对福建省海洋生态环境水平较低问题。一是鼓励渔业从捕捞和养殖并举向养殖为主转型。渔业的过渡捕捞,使得近海的渔业资源已几乎枯竭,渔民作业的范围逐渐向远洋靠拢,对渔业资源的生态链条产生了巨大的影响。二是加快推进新型海洋环境监测设施的完善。利用当前的大数据、5G、云计算等先进数字技术,推动环保数字产业化,建立安全、高效的海洋环境监测体系,进一步加强对沿海地区的固废处理、环境修复和环境监测,进而达到保护海洋生态环境的目的。三是加强政府的法治监管力度。围绕海洋保护地建立、日常管护、科研监测等工作,加快出台海洋保护地管理的相关法律法规和制度规章,使海洋保护地的管理有法可依、有章可循,预防出现“建而不管,管而不力”的情形。