基于灰色-广义回归神经网络模型的城市群交通运输能力预测

2022-09-01 07:25:34王亦虹李雅萱田平野罗久刚

重庆交通大学学报(自然科学版) 2022年8期

王亦虹，李雅萱，田平野，罗久刚

(1. 天津理工大学管理学院，天津 300384；2. 中国铁建华北投资发展有限公司，河北石家庄 050011)

0 引言

我国区域经济发展格局和区域空间结构正发生深刻变化。城市群作为主要空间载体，是构建“双循环”新发展格局的关键节点和战略链接，成为区域高质量发展的增长动力源。交通运输能力作为城市群综合承载能力的组成部分[1]，其稳步提升是发挥中心城市引领带动作用、强化区域联系的重要支撑。因此，准确预测城市群交通运输能力是科学谋划交通基础设施建设的参考依据，更是着力构建综合立体交通网的基础。深入了解交通运输能力的发展趋势，有助于发挥交通运输在国民经济扩大循环规模、增强循环动能的重要作用，从而助力建成现代化高质量交通强国。

城市群交通运输网涵盖面广，受区域经济发展和交通基础设施建设等多因素影响。现有研究多侧重预测交通运输量这一数值本身的变化，缺少对运输量产生影响的各因素综合考虑。同时，交通运输预测研究多以单一线路[2-3]或单一城市[4]等个体为研究对象，缺乏从区域布局的角度对城市群交通运输体系进行一体化空间形态的综合分析。而且传统的单一模型难以适应城市群的时变性、非线性、强耦合性和不确定性等特征，不能全面准确地预测城市群的综合交通运输承载能力。

智能建模算法凭借自适应能力，能有效捕捉非线性规律，但一些模型存在收敛速度慢和易陷入局部最优等不足。相对而言，广义回归神经网络(generalized regression neural network, GRNN)具有更强的抗干扰性能和非线性逼近能力，且收敛速度较快[5]。同时，神经网络模型依赖精准的输入因素来预测输出数据，鉴于部分影响因素数据缺失和可得性差，仅依靠神经网络算法难以对未来时期的城市群交通运输能力进行预测。因此，构建组合预测模型以避免单一预测模型自身的局限性，在一定条件下更能有效地改善模型整体性能[6]。

文中创新之处在于，在构建国家综合立体交通网的趋势下，以城市群为研究对象，提出复合预测方法——LASSO-GM(1,1)-GRNN模型，以京津冀城市群为例，预测并探析其交通运输能力。该组合模型旨在解决传统单一模型无法精准地预测未来城市群交通运输能力的问题，以期为释放高质量发展的新动能、促进内外经济双循环提供科学依据和借鉴。

1 研究方法与模型构建

1.1 LASSO变量选择模型

城市群交通运输能力预测作为复杂的社会问题，各影响因素之间存在多重共线性等特征，若主观选择可能会产生相关性较小、因素间耦合性强、计算复杂度增加等问题。套索(least absolute shrinkage and selection operator，LASSO)算法称为最小绝对值压缩选择算子，是一种能够实现有效变量选择、消除多重共线性等问题的方法。LASSO方法通过构造惩罚函数，使得估计后一些指标的系数为零，从而实现指标集合精简的目的[7]。

假设有线性回归模型Y=Xβ+ε，其中：Y为城市群交通运输能力向量；X为影响因素矩阵；β=(β1,β2,…,βp)为系数向量；ε为误差向量。令xij为标准化后的影响因素数据，yi为中心化的城市群交通运输能力数据。

传统最小二乘估计为：

(1)

式中：i=1,2,…,n；j=1,2,…,p。

而LASSO是一种L1正则化加上一个L1范数惩罚，即：

(2)

L1范数惩罚等价于：

(3)

(4)

式(3)没有解析解，可通过凸二次规划求解。如果预测的一组变量是高度相关的，LASSO会选出其中一个变量并将其他压缩为零；当系数为零时，LASSO算法不会选择相应的变量[8]。笔者使用筛选后的影响因素构建预测模型，其预期拟合效果将优于初始原始数据。

1.2 GM(1,1)预测模型

由于预测未来年份的城市群交通运输能力时，鉴于尚未公开发展规划，无法找到神经网络的输入数据，因而选取GM(1,1)模型预测单一影响因素。邓聚龙[9]于1982年提出灰色系统理论，GM(1,1)模型即单变量一阶灰色模型，适用于少样本、贫信息的数据。其原理是对随机无规律的原始时间序列采取累加的方法，使生成序列呈现出一定趋势规律，并对生成序列建立白色化形式的微分方程，通过求解微分方程得到时间响应序列，实现对系统的预测。GM(1,1)建模过程如下：

1)对原始时间序列X(0)={X(0)(1),X(0)(2),…,X(0)(n)}进行一阶累加，生成新的序列：

X(1)={X(1)(1),X(1)(2),…,X(1)(k),…,

X(1)(n)}

(5)

2)构造一阶微分方程如式(6)：

(6)

式中：a和μ为待解系数，分别称为发展系数和灰色作用量。利用最小二乘法求解a和μ，即：

(7)

3)求解微分方程，即得到预测模型如式(8)：

(8)

表1 精度检验等级参照Table 1 Accuracy inspection grade reference table

一般情况下预测精度达到二级标准，则表明预测结果具有一定的可信度。因此，笔者通过GM(1,1)模型预测所需年份主要影响因素的期望值，并以此作为输入数据代入GRNN预测模型，最终得到未来时期城市群交通运输能力的结果。

1.3 GRNN预测模型

基于非线性回归分析的GRNN预测模型人为调节参数很少，只有一个SPREAD值，其网络的学习全部依赖数据样本，此特点决定GRNN预测模型最大可能地避免主观假定对预测结果的影响[10]。GRNN模型算法由输入层、模式层、求和层和输出层构成，它对处理非线性问题具有极强的映射能力和学习速度。其算法原理如下：设x为随机变量，函数值为y，真实观测值为H，联合密度函数为g(x,y)，函数值y的预测值为Z。Z可表示为：

(9)

(10)

式中：σ为光滑因子；n为样本数量。

笔者只需要合理地选取交通运输能力的影响因素，确定GRNN模型算法的输入和输出数据，同时以相关历史数据对系统进行样本训练，便可准确地逼近非线性函数，建立与传统方法相比更为精确合理的预测模型。

1.4 LASSO-GM(1,1)-GRNN交通运输能力预测模型

根据具体方法，笔者提出的LASSO-GM(1,1)-GRNN模型运行结构如图1。

图1 预测模型运行结构Fig. 1 Operational structure of prediction model

首先，考虑到城市群交通运输能力作为复杂的社会问题，影响因素间存在多重共线性和不确定性等问题，选用LASSO算法筛选出主要影响变量，降低数据复杂度。其次，为弥补未来年份输入数据缺失，选用GM(1,1)模型预测LASSO筛选出的未来年份影响因素数据，并组合历史影响因素数据以得到完整的输入数据，构建GRNN神经网络模型，并不断调整光滑因子SPREAD来确定最佳的值，使仿真结果达到最优。最后，对反映交通运输能力的货运量和客运量指标进行预测，得到城市群交通运输能力的动态趋势。

2 模型应用与预测分析

2.1 研究区域与数据来源

京津冀城市群的区域空间格局以北京为一核，以北京和天津作为双城辐射周边，具备纵横联动东西南北的铁路、公路运输网络和航空枢纽，且东部沿海城市港口航运能力发达，区域交通优势明显。但其仍面临北京枢纽压力沉重、以公路为主导的区域运输模式难以适应城市群发展需求等问题[11]。长久以来，诸如此类的不协调问题在城市群区域协同发展进程中日益凸显，可见准确预测京津冀城市群交通运输能力是值得关注的问题。

交通运输能力即在一定的设备、交通、人员、环境条件下，单位时间内能够生产的运输产品数量。城市群交通运输能力主要分为货运综合承载能力和客运综合承载能力，具体表现为货运量、客运量两个指标[12]。针对京津冀城市群特性，借鉴学者判定交通运输能力影响因素和《中国交通统计年鉴》对交通运输能力的界定，输入数据和输出数据变量设定如表2。

表2 变量设定Table 2 Variable setting

考虑时代背景、数据的完整性和可得性，笔者以北京、天津两个直辖市和石家庄、唐山、秦皇岛、邯郸、邢台、保定、张家口、承德、沧州、廊坊和衡水共11个地级市为研究对象。统计数据来源于2000—2020年的《中国统计年鉴》、《北京市统计年鉴》、《天津市统计年鉴》、《河北省经济年鉴》、《中国交通统计年鉴》、各地级市相应年份的《国民经济和社会发展统计公报》及中华人民共和国交通运输部和中国民用航空局官方数据等。

2.2 LASSO变量选择结果分析

为了消除各影响因素量纲的影响，且较容易得到平稳序列，笔者首先把各时序数据标准化，各影响因素仍用表2中标记的记号。

结果显示，弱影响或无关影响的变量为第三产业增加值(x2)、高速等级公路里程(x7)、复线里程比重(x8)、铁路货车数量(x10)、公路营运汽车拥有量(x11)、铁路运输业就业人员数(x14)和公路运输业就业人员数(x15)等7个变量。之所以运用LASSO剔除了上述7个变量，是因为第三产业增加值(x2)与区域生产总值(x1)存在明显的多重共线性，高速等级公路里程(x7)和复线里程比重(x8)与公路里程(x6)相关性太强。据国家统计局指标定义，交通运输业就业人员数(x13)包括铁路运输业就业人员数(x14)和公路运输业就业人员数(x15)，两者间存在多重共线性关系。通过整理，得到京津冀城市群交通运输能力的影响因素回归系数如表3。

表3 LASSO回归系数Table 3 LASSO regression coefficients

最终，LASSO方法选择区域生产总值(x1)、货物周转量(x3)、旅客周转量(x4)、铁路营业里程(x5)、公路里程(x6)、民用载货汽车数量(x9)、公路营运载货汽车吨位数(x12)、交通运输业就业人员数(x13)、港口货运吞吐量(x16)和机场群旅客吞吐量(x17)等10个变量。表3中此10个变量的系数均为正数，表明10个影响因素对京津冀城市群交通运输能力的影响是正向的。旅客周转量(x4)的系数最大(0.69)，表明旅客周转量对城市群交通运输能力的影响最为显著，其次是货物周转量，系数为0.65，说明影响京津冀城市群交通运输能力的关键因素为旅客周转量和货物周转量。这一结论与国内外学者现有的研究结果基本一致，说明LASSO选择的结果与京津冀城市群的实际情况是相符的。

2.3 城市群预测结果

2.3.1 LASSO-GM(1,1)模型预测结果

依据GM(1,1)模型，收集2000—2019年的LASSO筛选出的10个影响因素的历史数据。GM(1,1)模型对10个影响因素预测结果显示，2020—2025年的地区生产总值(x1)、铁路营业里程(x5)、公路里程(x6)、民用载货汽车数量(x9)、公路营运载货汽车吨位数(x12)、机场群旅客吞吐量(x17)均达到C<0.35，P>0.95条件，即预测精度等级为一级标准。其余4个影响因素预测等级为二级标准。

因此，GM(1,1)模型预测京津冀城市群交通运输能力的影响因素精度较好，MATLAB输出的2020—2025年影响因素预测值如表4。

表4 GM(1,1)模型预测结果Table 4 GM(1,1) model prediction results

由于货物周转量、旅客周转量与机场群旅客吞吐量的2019年数据可获得，将2019年的真实值与GM(1,1)模型预测的2019年预测值进行误差分析，以此验证GM(1,1)模型预测效果。相对误差如式(11)：

(11)

将表4中x3、x4、x17代入式(11)，则货物周转量、旅客周转量与机场群旅客吞吐量相对误差分别为5.17%、3.24%、4.23%，误差在合理范围内，由此说明GM(1,1)模型在预测单一影响因素效果较好，随后将预测结果输入GRNN神经网络模型中进行训练学习。

2.3.2 组合模型预测结果分析

利用GM(1,1)模型预测输出的10个影响因素数据作为GRNN模型的输入数据，记为P，以货运量(y1)、客运量(y2)这两项指标的数据作为输出变量，记为T。其中将2000—2015年的数据作为神经网络的训练样本，将2016—2018年的数据作为测试样本，基于MATLAB软件训练GRNN神经网络，最后得到的最佳SPREAD值为0.8。组合模型预测结果显示，2016—2018年的预测值和真实值之间相差很小，几乎重合，表明该组合预测模型的样本外预测效果较好。

对“十四五”期间代表京津冀城市群交通运输能力的货运量、客运量进行预测。图2实线部分为京津冀城市群2000—2018年货运量、客运量真实值，虚线部分为2016—2025年货运量、客运量预测值，小绿色矩形阴影部分为2016—2018年预测值与真实值对比，以验证模型精度，大矩形阴影部分为2018—2025年货运量、客运量预测值。

图2 京津冀城市群货运量、客运量预测值与真实值的比较Fig. 2 The comparison between the predicted value and the realvalue of the freight volume and passenger volume ofBeijing-Tianjin-Hebei urban agglomeration

2018年测试结果和误差比较以及未来年期京津冀城市群货运量和客运量的预测值如表5。

表5 京津冀城市群整体预测结果Table 5 Overall prediction results of Beijing-Tianjin-Hebei urban agglomeration

据组合模型预测出的发展趋势数据(表5)可知，京津冀城市群整体货运量在2020—2025年迅猛增长，年均增长率为5.96%，表明区域货运集散水平将大幅提升，京津冀城市群货物周转能力有望实现跨越式发展。“十四五”期间京津冀城市群整体客运量依然保持较高水平并稳步增长，2020—2025年客运量年均增长率为1.98%，表明城市群的集聚效应日益凸显，区域间活跃程度逐渐扩大。鉴于LASSO变量选择出的旅客周转量和货物周转量等关键因素数据近五年呈现递增的态势，而京津冀城市群交通运输能力受这些因素的影响得到提升，这也验证了指标选取的合理性和有效性。

2.3.3 误差分析

为了更好地说明组合模型的预测精度，笔者引入了两种误差分析指标〔均方误差(MSE)与平均绝对误差(MAE)〕用来比较模型的预测效果，MSE与MAE的计算公式如式(12)～式(13)：

(12)

(13)

将LASSO-GM(1,1)-GRNN预测模型与BP神经网络模型、ARMA模型等经典预测模型进行误差分析与对比，结果如表6。

表6 不同组合模型预测结果Table 6 Forecast results of different combination models

从表6可以看出，BP和ARMA预测模型的MSE分别为1.253和1.852，可见ARMA模型预测效果最差；LASSO-GM(1,1)-GRNN组合模型预测误差均最小，显示出组合模型相比其他模型具有更高的预测性能。与BP神经网络和ARMA模型相比，GRNN预测模型需要调整的仅为SPREAD，在模型精度上占优势，且GRNN模型算法在样本量较小时预测效果也很好，此均为另两种模型无法比拟。因此，京津冀城市群小样本数据集组合模型预测效果要优于BP、ARMA两种传统单一预测方法，证明笔者所建立的预测模型可满足城市群交通运输能力精准预测的需求，同时具有一定的泛化能力。

3 进一步分析与讨论

3.1 核心区位城市交通运输能力探析

通过误差分析可知组合模型具有较好的预测精度，可满足对城市群货运量、客运量的发展趋势预测需求。为充分发挥城市群内部城市的区位优势，明晰各城市当前交通发展状况以及未来发展潜力，笔者继续采用组合模型预测京津冀城市群核心区位城市的交通运输能力。

考虑数据的完整性、可得性和时代背景，选取京津冀城市群的北京、天津和河北省的石家庄、唐山、秦皇岛、保定、张家口、沧州、廊坊等9个核心区位城市，得到货运量和客运量变化趋势。核心区位城市货运量变化趋势如图3，客运量变化趋势如图4，实线部分为各城市2000—2018年真实值，虚线部分为各城市2019—2025年预测值。

图3 核心区位城市的货运量趋势Fig. 3 Freight volume trends in core cities

图4 核心区位城市的客运量趋势Fig. 4 Passenger volume trends in core cities

货运量可以从整体上反映运输服务和国民经济水平，是研究交通运输发展规模和速度、制定和检查运输生产计划的重要参考数量[13]。从图3得出，天津、石家庄和唐山的预测货运量体量一直居于京津冀城市群内领先地位，其2020—2025年预测货运量年均增长率分别为1.89%、1.52%和3.88%，预测这3个城市将逐渐发展成为京津冀城市群货运枢纽核心节点。天津市虽已形成多元化运输格局，但货运量在“十四五”期间增幅收缩，天津港货运需求面临趋于饱和的问题。此外，预测北京2025年货运量增长至21 987万吨，“十四五”时期货运量年均增长2.06%，增幅缓慢，表明货运压力逐步向周边城市分散疏解，但一段时期内依然无法显著改善。从图3看出，秦皇岛货运量在城市群内排名居中。由于海港间功能定位有较大程度的重叠，同质化竞争现象严重，海港功能定位已成为制约港口群整体承载能力提高的瓶颈，导致集群效应难以发挥[14]。

客运量代表城市间活跃程度和与其他城市交流频次。从图4可看出，北京客运量体量一直居于京津冀城市群首位，预测北京“十四五”期间客运量年均增长率为2.34%，一直保持平稳增长态势；预测北京2025年客运量将达到63 178万人，总量远超京津冀城市群乃至国内其他城市。此趋势表明，以北京为单中心、放射状的交通网络布局仍需优化，不能适应首都功能疏解和京津冀协同发展的需要。此外，天津作为京津冀城市群空间格局中的“双城”之一，预测其2025年客运量将达到19 420万人，总量与北京市相距甚远，其疏解北京客运交通压力作用不显著。建立无缝化衔接的交通运输网络是“十四五”交通规划布局的关键一环。

3.2 讨论

预测结果表明，北京逐渐成为区域客运中心，但其辐射周边城市能力仍显不足；天津逐步推动京津冀城市群以海上通道联通全国；河北省一些城市交通发展潜力与其城市定位不相匹配。由此，印证了组合预测模型有助于合理评估城市群发展现状，进而推进各种运输方式一体化融合发展，提高网络效应和运营效率。实现错位互补的高质量协同发展仍是未来发展规划中的重要方向。笔者结合预测模型的结果作出以下讨论：

1)建设网络化运输线路，缓解大型中心城市的交通枢纽压力。京津冀城市群具备以北京为中心的发达铁路运输网络和公路基础设施，放射状的陆域运输网络在分布密度和通达程度上来说在全国具有领先地位，但长久以来，以首都为中心的非均衡交通运输体系使北京的交通枢纽压力异常沉重。由此，京津冀城市群在未来发展进程中，疏解大型中心城市的交通压力、完善市域线路和城际轨道交通建设是形成多节点网格状运输格局的关键。

2)完善环渤海港口运输基础设施建设，持续发挥扩大区位优势。随着新型城镇化和工业化进程的加快，京津冀城市群以公路运输为主导的传统运输体系正向多元化发展。持续推动以港口综合联动联运的运输模式，加强内陆城市与沿海地区的联系，加强交通基础设施建设，将京津冀城市群建设成为辐射北方地区重要的能源枢纽以及对外贸易窗口。

3)深化航空港联动发展，打造区域立体化交通运输体系。京津冀城市群具备庞大的航空港数量和由北京、天津等为代表的综合航空运输节点，但从真正意义上来说，含4E及以上高等级的航空港仅仅北京、天津和石家庄三处。这在一定程度上也加剧了北京和天津过境旅客周转压力。同时由于军地共建共用等诸多因素，京津冀城市群的航空运输情况在“十四五”期间虽有改善但不显著。因此，合理规划和优化航空港建设，增强周转效率，是打造立体化交通运输体系、提高京津冀城市群交通承载能力行之有效的重要措施。

4 结论

在城市群为主要空间载体构建新发展格局的背景下，针对传统预测方法无法精准地预测未来城市群综合交通承载能力的问题，笔者提出了LASSO-GM(1,1)-GRNN组合预测模型，探析京津冀城市群整体和核心区位城市的交通运输能力。主要研究结论如下：

1)城市群交通运输能力作为复杂的社会问题，其未来预测值受多种因素影响。采用LASSO变量选择方法得出，影响京津冀城市群交通运输能力的关键因素为旅客周转量和货物周转量。

2)构建LASSO-GM(1,1)-GRNN组合预测模型，实现了多维影响因素准确预测城市群交通运输能力。模型仿真结果显示，组合模型预测性能良好，误差较小。该组合模型弥补了受限于预测精度以及数据来源的不足，可有效地满足评估城市群所需年份综合交通承载能力的需求。

3)在组合预测模型具有一定可信度的基础上，对“十四五”期间京津冀城市群整体和其核心区位城市的交通运输能力进行发展趋势预测与探析。

综上，借助历史数据构建组合模型，预测未来的发展变动趋势是当前有效的数据建模方法。但对城市群交通运输能力来说，其影响因素覆盖面广且具有一定的不确定性。考虑到城市群交通运输能力也与辐射的周边区域环境息息相关，这种域外效应是文中建模过程中所没有考虑周到的，这将是笔者下一阶段研究工作的重心。