龙柏秋
摘要:随着公路建设发展及航道疏浚工程的大力推进,近年来我国的公路里程及内河航道里程呈递增趋势。公路里程及航道里程数据统计中,均以点数值表式,由于数据是通过统计方式获得,点数值表达方式,不能充分反映公路里程及航道里程数据的统计误差。文章提出以区间数值来表达公路里程及航道里程数据,建立起基于标准差区间值的公路里程及航道里程多项式预测模型。结果表明,基于标准差区间取值的公路里程及航道里程多项式预测模型,较目前点数值方法更能充分反映统计数据的复杂性。
Abstract: With the development of highway construction and the dredging of waterway dredging projects, the mileage of highways and the mileage of inland waterways in China have been increasing in recent years. In the statistics of highway mileage and waterway mileage, point data are used to express the statistics. Because the data is obtained through statistics, the point value expression method cannot fully reflect the statistical error of highway mileage and waterway mileage data. This article proposes using interval values to express highway mileage and waterway mileage data, and establishes a polynomial prediction model for highway mileage and waterway mileage based on standard deviation interval values. The results show that the polynomial prediction model of highway mileage and waterway mileage based on the standard deviation interval value can fully reflect the complexity of statistical data than the current point numerical method.
关键词:公路里程;航道里程;区间数值;区间分析;多项式预测
Key words: highway mileage;waterway mileage;interval value;interval analysis;polynomial prediction
中图分类号:U61 文献标识码:A 文章编号:1006-4311(2018)20-0131-05
0 引言
公路建设的发展及航道疏浚工程的大力推进,对我国的公路里程及内河航道里程做了很大的贡献。然而,公路里程及航道里程数据统计中,均以点数值表式。由于数据一般是通过统计方式获得,点数值表达方式,不能充分反映公路里程及航道里程数据的统计误差,从而进一步影响到统计预测误差。
空间、时间、方法及人为四种统计误差,是统计学中常见的问题。在统计学中,存在统计数据失真的现象,导致不能把握统计的实质问题。统计预测误差的来源,可理解为数据的错误,模型选择偏差和不确定性导致的判断失误等。
区间分析理论是美国数学家R.E.Moore在二十世纪六十年代第一次系统提出的[1-2]。在误差分析、不确定性分析上的应用非常广泛[3-7]。
基于此,本文利用区间数值来表达公路里程及内河航道里程统计数据,借鉴区间分析理论,提出以区间数值来表达公路里程及航道里程数据,建立起基于标准差区间取值的公路里程及航道里程预测模型,对国家1997-2016年的公路里程及内河航道里程进行了分析,并预测了2017-2020年的公路及内河航道里程。
1 公路里程及航道里程统计点数值分析
国家统计局在其官网上(http://data.stats.gov.cn/easyquery.htm?cn=C01&zb;=A0G02&sj;=2016)公布了1997-2016年近20年的公路里程、高速等级路公路里程、内河航道里程数据,见表1。
采用多项式拟合的方式,获得公路里程与年份的拟合多项式为y =-0.391x2+29.20x+55.03,R2=0.938,见图1。
采用多项式拟合的方式,获得高速等级路公路里程与年份的拟合多项式为y=0.021x2+0.219x+0.323,R2=0.998,见图2。
采用多项式拟合的方式,获得内河航道里程與年份的拟合多项式为y=-0.006x2+0.194x+11.03,R2=0.847,见图3。
从图3中知,多项式拟合1997-2016年的内河航道里程,其R2=0.847,小于0.9。结合图1,2,3综合考虑,现取2008年-2016年共9年的数据,重新采用多项式进行拟合。见图4,5,6。
图4中,y=-0.149x2+13.45x+360.1,R2=0.999。
图5中,y=0.005x2+0.871x+4.943,R2=0.996
图6中,y=-0.001x2+0.065x+12.22,R2=0.988。
从图4,5,6中知,多项式拟合2008-2016年的公路里程、高速等级路公路里程、内河航道里程,其R均大于0.98,甚至达到0.999。可见,采用2008-2016年的数据预测2017和2018年的数据,具有较好的拟合关系。
2 基于标准差的区间取值方法
2.1 区间表示
实数集R上的一个连续子集称为实区间。所有实区间的集合记作。区间X上下端点分别记做sup(X)和inf(X)。区间X的中点,宽度,半径和绝对值,分别定义为:
中点: (1)
宽度: (2)
半径: (3)
绝对值: (4)
2.2 区间运算法则
设,。区间四则运算法则为:
(5)
(6)
(7)
(8)
2.3 区间取值方法
统计数据中,标准差是一个衡量误差很重要的指标。因此,本文引入标准差这个指标,按照概率统计理论,取统计数据与标准差的组合确定其取值区间。设某统计数据y(比如公路里程及航道里程)的统计值为μ,其标准差为θ,则此统计数据按3倍标准差作为两端点值控制的区间取值为:
(9)
若此统计数据y满足正态分布规律,可以认为此区间取值以0.9974的概率出现在整个统计过程中。也即y取值在此区间之外的概率为0.0026,按照小概率事件的含义,是不可能发生的。
依上分析,当统计数据按2倍标准差作为两端点值控制的区间取值为:
(10)
依上分析,当统计数据按1倍标准差作为两端点值控制的区间取值为:
(11)
某些统计数据的统计和分析结果可能符合T分布或其他概率统计分布规律,此时可按其符合的分布规律,取合适的概率确定其区间取值。
3 基于区间取值的公路里程及航道里程多项式预测模型
多项式拟合公路及航道里程,从图4,5,6中知,其R均大于0.98,故采用多项式拟合方式,是比较合适的。多项式拟合公路及航道里程的一般点数值表达式为:
(12)
式中,y为拟合的公路里程,x为拟合年份排序,如2008排序为1,x=1,2016年排序为9,x=9,a、b、c为拟合系数。
现考虑a、b、c为区间值[a,a]、[b,b]、[c,c],则式(12)可写为:
(13)
式(13)即为基于区间取值的公路里程及航道里程多项式预测模型。
[a,a]、[b,b]、[c,c]的取值,决定于。y的左端值,右端值,采用基于标准差的区间取值,可参考式(9)、(10)、(11)。利用左端值拟合多项式,可得到a、b、c的左端值a、b、c,利用右端值拟合多项式,可得到a、b、c的右端值a、b、c。获得a、b、c的区间取值后,即可利用式(13)进行区间数值的预测。
4 公路及航道里程区间分析
影响公路及航道里程合理发展的因素有很多。有人口、经济发展水平、车船保有量和区域面积等多种因素。现有的预测模型,一般是针对影响发展公路及航道里程总量的基础因素进行分析,确定公路及航道里程发展与各影响因素之间的关系,再建立公路及航道里程预测模型。
历史统计数据,可以反映出公路及航道里程发展的一个基本规律。本文根据国家统计局发布的1997-2016近20年的公路及航道里程数据,采用2008-2016年的数据,建立了拟合度非常好的多项式预测模型。
4.1 公路及航道里程点数值拟合与预测
4.1.1 公路里程拟合多项式(2008-2016年)
y=-0.149x2+13.45x+360.1 (14)
4.1.2 内河航道里程拟合多项式(2008-2016年)
y=-0.001x2+0.065x+12.22 (15)
点数值的公路及内河航道里程实际统计数据与拟合值,见表2,表3。
采用点数值的多項式拟合后进行预测,得到2017-2020年公路里程与内河航道里程的预测值见表4。
4.2 公路及航道里程区间数值预测
标准差作为测量值和测量误差的评定指标,有其统计学上的理论意义。现取公路及航道里程当年统计数据的0.1%作为标准差,采用式(10)计算公路及航道里程区间值,见表5。
采用多项式拟合的方式,获得公路里程的拟合多项式为y=-0.149x2+13.48x+360.8,R2=0.999,公路里程的拟合多项式为y=-0.149x2+13.42x+359.3,R2=0.999。见图7。
由此可知,公路里程区间拟合的系数[a,a]、[b,b]、[c,c]的取值区间分别为[-0.149,-0.149]、[13.42,13.48]、[359.3,360.8]。
采用多项式拟合的方式,获得内河航道里程的拟合多项式为y=2E-06x2-0.000x+11.97,R2=0.988 ,内河航道里程的拟合多项式为y=-2E-06x2+0.000x+12.02,R2=0.988。见图8。
由此可知,内河航道里程区间拟合的参数[a,a]、[b,b]、[c,c]的取值区间分别为[-2E-06,2E-06]、[0.000,-0.000]、[11.97,12.02]。
根据式(13),预测公路里程区间值的具体计算式为
=[-0.149,-0.149]x2+[13.42,13.48]x+[359.3,360.8] (16)
预测内河航道里程区间值的具体计算式为
=[-2E-06,2E-06]x2+[0.000,-0.000]x+[11.97,12.02]
(17)
式(16)的软件计算执行代码为:
y=infsup(-0.149,-0.149)*x^2+infsup(13.42,13.48)*x+infsup(359.3,360.8)。
式(17)的软件计算执行代码行为:
y=infsup(-2E-06,2E-06)*x^2+infsup(0.000,-0.000)*x+infsup(11.97,12.02)。
经计算,取公路及航道里程当年统计数据的0.1%作为标准差,采用2倍标准差作为两端点值,获得多项式拟合系数[a,a]、[b,b]、[c,c]的取值区间后,预测的公路及航道里程区间值见表6。
如果取公路及航道里程当年统计数据的1%作为标准差,采用式(9)计算公路及航道里程区间值,见表7。
根据式(13),预测公路里程区间值的具体计算式为
=[-0.154,-0.145]x2+[13.05,13.85]x+[349.2,370.9]
(18)
预测内河航道里程区间值的具体计算式为
=[-3E-05,3E-05]x2+[-0.002+0.002]x+[11.63,12.36] (19)
取公路及航道里程当年统计数据的1%作为标准差,采用3倍标准差作为两端点值,获得多项式拟合系数[a,a]、[b,b]、[c,c]的取值区间,预测的公路及航道里程区间值见表8。
表6及表8为2017-2020年的公路里程及航道里程预测的区间值,从两个表的区间数值看,区间数值较表4的公路与内河航道里程点数值预测值更为合理。
5 讨论与结论
本文就基于标准差区间值的公路及航道里程多项式预测模型进行了研究,得到了以下结果。
①以区间数值来表达公路里程及航道里程数据,能充分反映公路及航道里程数据的统计误差;
②建立了基于区间取值的公路及航道里程多项式预测模型,进一步可获得多项式预测模型的左右端点值;
③基于多项式预测模型的左右端点值,利用区间分析运算,预测了2017-2020年的公路及航道里程。
基于标准差区间值的公路及航道里程多项式预测结果,较点数值的预测结果,有更好的代表性及适应性。
参考文献:
[1]R.E.Moore. Interval Arithmetic and Automatic Error Analysis in Digital Computing[D]. Ph.d. Dissertation, Department of Mathematics, Stanford University, Stanford, California, Nov. 1962.
[2]R.E.Moore. Interval Analysis [M]. New Jersey:Prentice-Hall,1966.
[3]蘇永华,何满潮,赵明华,刘晓明.基于区间变量的响应面可靠性分析方法[J].岩土工程学报,2005(12):1408-1413.
[4]王朝晖,王选仓,马士宾.基于区间数逼近法的路面使用性能综合评价[J].公路交通科技,2009(01):21-25.
[5]朱向平,颜可珍,刘杰.沥青路面预养护方案的区间关联模糊优化决策[J].中南林业科技大学学报,2011(11):166-170.
[6]于生飞,陈征宙,张明瑞等.基于区间不确定分析方法的边坡稳定性分析[J].工程地质学报,2012(02):228-233.
[7]唐利民,郑健龙.基于区间适定和区间不适定性理论的参数反演方法[J].土木工程学报,2016,49(11):91-96.