高 波
(辽宁警察学院治安管理系, 辽宁大连 116036)
公路运输是我国现代运输方式的基础性产业,科学准确的预测公路客运量及掌握其发展规律,有利于公路运输生产组织高效管理,是制定交通发展战略、公路网发展规划的基础[1]。公路运输量的预测精度不仅会影响当地交通运输设施的经济投入与经营效益,也在一定程度上影响社会经济战略发展与当地交通运输战略规划的制定。
公路客运量的预测研究归纳起来,大体分为定性预测和定量预测两类。常用的定性预测方法是德尔菲(Delphi)法;定量预测方法有指数平滑法、回归分析法、马尔可夫分析法、客流调查法、弹性系数法、细分集成法、灰色系统法等[2]。如:God-frey运用指数平滑法对客运量进行了较高精度的预测[3];Garrid通过建立多项概率模型并利用蒙特卡洛方法评价了建模质量[4]。国内的预测开展较晚,王生昌[2]运用灰色模型预测,使其百分绝对误差由弹性系数法预测的8.31%下降为6.72%,指数平滑法预测精度为6.23%;谭逸萍[5]运用主成分分析法得到的预测值与实际值的拟合较好,最高误差为3.04%,平均误差为1.08%;朱方方等[6]运用组合预测方法进行预测的平均误差在0.71%~2.39%。
对比分析上述各预测方法的差异和特点不难发现:若为了消除多重共线性,仅选取影响公路客运量的少量解释变量,必然造成信息的流失,全面性的缺乏,致使预测结果大失水准;而如果考虑相关因素太过全面则会导致多重共线性严重,出现某些自变量回归系数的符号与实际意义不符、回归系数不能通过显著性检验等问题[7];更为严重的是如果在实践中得到的样本数量少于自变量个数,则会直接导致建模精度低劣甚至无法建模。偏最小二乘法(Partial Least Squares,简称PLS)解决了普通多元回归因为多重相关性而导致的无法建模的问题,并能在观测数据少(甚至少于变量个数)的情况下高质量建模,因此,通过采集辽宁省公路客运量的相关影响因素数值运用PLS对其进行建模研究并进行预测[8]。
PLS是由伍德(S.Wold)和阿巴诺(C.Albano)于1983年提出并首先应用于化工领域的基于多因变量对多自变量的回归建模方法,此方法的优点是不仅解决了普通多元回归因为多重相关性而导致的无法建模的问题,而且还能在观测数据少(甚至少于变量个数)的情况下高质量建模。它不直接对原始变量进行建模,而是通过提取最佳解释能力的新综合成分进行建模,尤其能使得有用信息在PLS提取主成分时不会被误剔除,保证了最终预测模型精度[9]。在建立模型提取主成分后,按照相关性大小进行排列,根据精度需要选定主成分个数参与建模。PLS尤其适用于观测数据少于预测变量数的情况,并作为第二代回归分析方法已适用于很多行业。它能剔除噪音干扰并选择最优变量进行建模预测,改善预测模型质量。PLS主要建模思想如下:
X、Y的标准化处理:
E0=(E01,…,E0p)n×p
F0=(F01,…,F0q)n×q
提取E0的第一个成分t1,
t1=E0w1,
提取F0的第一个成分u1,
u1=F0c1,
式中:w1和c1分别是标准化矩阵E0与F0的第一个轴,有:
‖w1‖=1
‖c1‖=1
要求t1与u1的协方差达到最大:
求解w1和c1,即可得到成分:
t1=E0w1
u1=F0c1
分别求E0和F0对t1、u1的回归方程:
其中:
用E1和F1两个残差矩阵替代原矩阵E0和F0,循环进行第二次求得第二个最大特征值对应的单位特征向量w2和c2,并求解第二个成分t2,u2,得到回归方程如下:
持续进行计算,如果X的秩是A,则有:
其中:FAk是残差矩阵FA的第k列。
提取成分个数,是否终止算法的依据是:
式中:PRESSh为Y的预测误差平方和,SSh-1为Y的误差平方和。
对于k=1,2,…,q至少有一个k,使得:
此时若再添加一个成分th,使得因变量yk的预测模型精度能得到明显改进,因而可以判断增加的成分th是对预测模型的精度显著有益的。
还可还原转换为y对x1,x2,…,xh的回归方程[10]:
=β0+β1x1+β2x2+…+βhxh
根据以往研究,公路客运量主要受到当地的经济社会结构、经济发展水平、旅游业发展状况、居民收入与消费水平、总人口等因素的影响[11]。本文据先前研究,精选影响辽宁省公路客运量的相关重要因素:国民生产总值(x1)、人口数(x2)、公路通车总里程(x3)、民用汽车拥有量(x4)、省居民消费水平(x5)、全省社会消费品零售总额(x6)、入境旅游人数(x7)、国内旅游总数(x8)、辽宁省公路客运量(Y)9个相关指标进行分析(具体数据见表1)。
由于采取的样本数量少(7个),而自变量个数多(8个),根据相关文献可知各自变量之间存在着显著相关,不经过处理直接建立模型时就会出现严重的共线性,导致模型失效。因此,拟通过PLS处理数据消除共线性影响,选取影响因素中最重要的指标构建新主成分对辽宁省公路客运量进行建模预测。
采集辽宁省统计局网站2010~2016年的公路客运量数据以及选定的8个主要影响因素的数据[12],根据PLS计算步骤,利用IBM SPSS先进行相关影响因素的多重相关性分析,然后用MATLAB与SIMCA-P对变量进行标准化处理,即做量纲化处理,通过软件实现PLS算法并对标准化数据进行建模,算法是否终止,采取交叉有效性进行判断,最终根据计算选择最佳成分个数h=4,运行结果如图1所示。
表1 辽宁省公路客运量重要影响因素数据采集表
图1 模型拟合结果显示
最后,标准化回归方程还原为原始因变量y对原始自变量x1,x2,…,xh的辽宁省公路客运量预测回归方程为:
=1 413 970+0.492 392x1-239.849x2-
3.419 3x3+17.645 8x4+0.059 460 2x5-
0.428 63x6-0.003 821 31x7+1.456 74x8
预测模型建立后,对其进行分析评测。首先对其拟合程度进行验证,利用建立的模型计算出预测值,并与实际观测值进行比较,画出实际值与预测值的比较图(如图2所示),从图2可以看出,预测值与实际值的数值差异很小,说明构建的模型拟合程度高,建立模型质量较好。
图2 实际值与预测结果比较图
(1)为了直观的观测8个自变量对公路客运量的作用,标准化数据的回归系数图(如图3所示)绘制如下。
由图3可以看出,省GDP、民用汽车总量、居民消费水平、国内旅游总数对省公路客运量量起正向作用,表明增大它们的数值能对公路客运量的增长起促进作用,而人口数(x2)、公路通车总里程(x3)、全省社会消费品零售总额(x6)及入境旅游人数(x7)对交通流量起负向作用;从图中还可看出,入境旅游人数(x7)、国内旅游总数(x8)对公路客运量的影响较大,而省居民消费水平、全省社会消费品零售总额对其影响度是最低的。
研究数据表明,辽宁省近几年人口变化不大,一直围绕在4 240万人左右。由此可见,虽然省人口数量增加,但能达到出行要求(尤其是旅游需求)的人口并没有大量增加,即没有对客运量有正向作用。另外,公路总里程的增加本应是客运量增加的最主要因素,但统计结果表明该因素并未促进客运量的增加,反而呈负向作用,这说明新增公路并不是客运出行的最佳选择。同时民用汽车的大量增加使得人们趋向于选择自驾出游,从而导致了公路客运量的下降。
省居民消费水平(x5)与全省社会消费品零售总额(x6)对本省公路客运量的影响程度较弱,可考虑在接下来的建模研究中将其从自变量中剔除。
图3 回归系数图
(2)根据计算,运用PLS建立的预测模型对公路客运量进行预测(见表2)。由表2可知,构建的辽宁省公路客运量预测模型的预测相对误差均值为0.91%、相对误差最大为1.17%,最小仅为0.30%,说明偏最小二乘法的预测精度较高;另外,此构建模型的自变量有8个,而采集的样本量只有7个,表明用偏最小二乘回归方法能在低样本情况下建立高精度的省公路客运量模型。
表2 预测结果与实测值精度比较表
根据实测数据,利用提取新主成分的PLS方法对辽宁省公路客运量进行建模研究,结果如下:
(1)偏相关分析结果表明,公路客运量与省GDP、民用汽车总量、居民消费水平、国内旅游总数都为正相关,且省GDP、民用汽车总量、国内旅游总数对其影响程度显著;而人口数、公路总里程、社会消费总额及入境旅游人数对交通流量呈负相关。
(2)从建模回归系数图中可见,省居民消费水平(x5)、全省社会消费品零售总额(x6)对辽宁省公路客运量的变化影响程度较弱,因此在研究中可以考虑将其从自变量中剔除。但应该指出此二自变量对不同省份的公路客运量影响程度会有所不同,不可片面决定,应从当地的实际统计情况(如旅游业发展程度,居民出行方式的选择等)总结预测。
(3)提高公路客运量的预测精度关键是要根据当地实际情况(如旅游业的发展、居民的消费倾向、居民的出行选择、新建公路的属地等)准确把握并提取重要相关因素,最大限度地考虑到影响辽宁省客运量关键因素。采用PLS进行回归建模具有回归速度快,避免了自变量多(8个)样本少(7个)而导致无法建模的问题。预测结果与实测数值的对比分析结果表明PLS方法对客运量分析精度较高,建模较准确。