带有约束条件的函数型数据的拟合*——以北京市城镇最低生活保障为例

2015-05-02 09:13徐延新刘黎明
社会保障研究 2015年6期
关键词:样条惩罚曲线

徐延新 刘黎明

(1首都经济贸易大学统计学院,北京,100070;2哈尔滨师范大学数学科学学院,黑龙江 哈尔滨,150025)

一、引言

20世纪90年代,伴随着经济结构的调整,城市居民的收入差距被逐渐拉大,为了缓和经济转型造成的社会冲击,最低生活保障制度应运而生,经过近20年的发展,以最低生活保障制度为核心的新型社会救助体系初步形成。目前,我国的低保政策从中央到地方尚处在探索阶段。出台了落实低保政策的部分条例或规定。在刚刚结束的党的十八届四中全会公报中明确指出,要继续做好改善和保障民生特别是帮扶困难群众工作。但在具体实施中低保的涵盖面明显较窄,对贫困人群的实质性救助还很不足。对于低保人群的鉴定、资金的发放、监督等尚存在诸多不完善之处,所以较好的拟合收入分布函数就显得尤为重要。

有关收入分布函数的研究可以追溯到19世纪末期,一个世纪以来,统计学家和经济学家都在试图寻找各种比较贴近实际的分布函数,Aziz等[1]利用核密度估计(Kernel Estimation)方法研究了中国省区的收入分布,拟合优度好,但光滑性不理想,不利于不同收入函数之间的比较;lydall[2]研究认为,居民收入的中间部分接近正态分布;Kmietowicz等[3]用对数正态分布拟合江苏省居民收入分布,Salem等[4]认为伽马分布比对数正态分布更适合拟合居民的收入分布。

近年来,胡航宇[5]将正交多项式的方法用于工程中的曲线拟合,得到了非常好的拟合效果,但由于正交多项式只能针对频率数据进行拟合,这使得数据信息损失比较大。黄恒君等[6][7]提出收入分布函数序列的拟合方法,陈涛、阮敬等[8][9]用线性正态插值函数拟合收入分布曲线。以上这些拟合方法虽然都可以对其进行拟合,并各有自身的优势和特点,但都存在一定程度上精确度不高,整体拟合不精准等局限性,这样难免造成对未来低保水平调整以及政策的制定带来影响。在中国现行社会福利保障制度下研究城镇最低生活保障问题,这一研究对完善我国的社会保障制度和探讨公平的分配形式具有重要的理论价值和重要的现实意义。

本文尝试一种基于样条拟合和带有约束条件的函数型数据理论相结合的方法,构造出既能够有效满足拟合优度又能够满足分布函数性质的拟合方法,做法及安排如下:首先将观测的数据转换为函数型数据,通过B-样条逼近数据的离散值,然后利用带有约束条件的函数型数据的分析方法及表现形式对拟合的函数加以约束和限制以满足分布函数的性质,提高拟合的精度,经过实际数据的测算表明,带有约束条件的函数型数据下的样条拟合,不仅能满足分布函数的性质,而且能很好地兼顾拟合优化和曲线的光滑度。

二、光滑样条拟合模型

在统计处理中,非参数回归样条拟合的基本思想是用多个低次多项式分段拟合(xi,yi),首先需要对观测值(离散数据)进行平滑化处理,在函数型数据分析中使用基函数法进行估计,常用的基函数有:傅里叶基函数(Fourier basis function)、样条基函数(Spline basis function),小波基函数(Wavelet basis function),多项式基函数(Polynomial basis function)等。一般的函数型数据问题都可以用以上四个基函数来拟合,其中最常用的是多项式基函数,傅里叶基函数较适合处理周期性函数型数据,样条基函数较适合处理非周期性函数型数据。下面我们使用样条基函数逼近的方法,根据函数型数据分析的方法,给出一种逐点测算函数型变量的非参数回归模型。

首先,考虑一组可观测的离散型数据yi=(y1,y2,…,ym)

其中,gi(t)为待估曲线,t=[t1,t2,…t,m]为自变量t在区间[a,b]上m个离散点形成的向量,yi是t=t1,t2,…,tm,t1<t2<… <tm时的观察数据,εi(t)是具有零均值、同方差的独立同分布的随机变量。

待估曲线gi(t)可通过一组基底函数逼近,基底函数为B-样条基底,给定区间[a,b]的一个划分π:a< t0< t1< … < tn< b,若存在函数 S(t)满足 S(t)∈ C2[a,b],S(t)在[ti-1,ti](i=1,2…,n)上为四次多项式,则称S(t)为四次样条函数。这些函数的全体记为S(π,4),这是C[a,b]的一个线性子空间,任何一个样条函数均能表示成B-样条的线性组合,定义B-样条函数基函数:

为m-1次标准B-样条。

假设在区间t∈[a,b]上的一段曲线g(t),考虑时段内的等距划分

则曲线g(t)可表示为

其中,N为段数,bj(j=-1,0,1,…,N+1)为待估的样条系数。

三、分布函数和概率密度函数的计算及其性质

定义1:一般情况下,收入分布函数F(t)有离散型和连续性两种情况。对于离散型的分布函数F(t)有:

对于连续性的分布函数F(t)有:

命题1:分布函数F(t)性质:

(1)非负有界性:0≤F(t)≤1

(2)单调不减性:当t1<t2时,F(t1)<F(t2)

(3)右连续性F(t)=F(t+0)

F(t)=p(T≤t)

命题2:概率密度函数f(t)的性质:

(1)非负性:f(t)≥0

命题3:分布函数F(t)与概率密度函数f(t)的关系:

四、函数型数据及约束函数

(一)函数型数据

函数型数据分析方法(Functional data analysis,FDA)最本质的思想,就是以函数为表现形式的一种数据,它最大的特性就是数据具有函数性。在对函数型数据进行分析时,将观测到的数据(函数)看作一个整体,而不是一串数字,这是函数型数据分析方法与传统统计分析方法的本质区别。

函数型数据分析是由加拿大统计学家 Ramsay[10][11][12]在 Grenander[13]的抽象推断和 Rao[14]对增长曲线的研究的基础上于1982年最早提出函数型数据分析(functional data analysis,FDA)这一概念,1992年,Ramsay和Dalzell给出了一些无限维函数向有限维投影的研究工具,归纳了函数型数据分析方法,2005年,J.O.Ramsay和B.W.Silverman于2005年出版了较系统的《函数型数据分析》,这本著作详细论述了函数型数据的定义、建模和分析方法。

随着科学技术的飞速迅猛发展,人们需要处理越来越多的具有函数特征的数据(简称为函数型数据)。因此,发展适用于这种数据的函数型数据分析十分有意义。函数型数据分析具有许多自身优点。例如,函数型数据分析可以对来自无限维空间的曲线数据进行统计分析、函数型数据分析会通过自己特有的方法挖掘出更多的数据信息、函数型数据分析允许不同观测对象具有不等的观测次数、函数型数据分析方法对某些非函数型数据仍然适用等等。同时,因为函数型数据分析在增长分析、气象学、生物力学、经济学、医学等许多领域具有广阔的应用前景。因此,在最近二十年来,函数型数据分析一直是统计热点研究领域。国内外很多研究人员一直致力于这方面的研究,并取得了许多理论和应用成果。但是,由于函数型数据的研究仍处于起步阶段,许多问题还需要做进一步的研究。

本文将带有约束条件的函数型数据的分析方法与B-样条曲线拟合法相结合应用到城镇低保水平的分布函数拟合中,一方面满足拟合的平滑有效性,同时满足分布函数的自身性质,使拟合更加精准,有利于对未来低保政策的制定和修改。

(二)约束函数

由分布函数的性质可知,我们估计的分布函数曲线必须满足处处为正、单调等条件,一般的平滑数据常产生不是处处增加且有负速度的曲线,这样我们需要把约束问题转化为无约束的情况。

定义2:一个正的平滑函数F总是可以由一个无约束函数W的指数函数来定义:

所以W(t)是F(t)的对数。

定义2保证了分布函数F(t)的非负性问题,且W(t)可正可负不以任何其他方式限制。

定义3:一个严格单调递增的函数F的一阶导数总是可以由一个无约束函数W的指数函数来定义:

所以W(t)是F(t)的一阶导数的对数。

定义3保证了分布函数F(t)的单调不减性,且W(t)可正可负不以任何其他方式限制。由于定义1、定义2中的W(t)可正可负并且不以任何其他方式限制,所以由一组基函数展开W(t)是合理的:

其中,φ1(t),φ2(t),…,φK(t)是一组基函数,常用的基函数有:傅里叶基函数(Fourier basis function)、样条基函数(Spline basis function),小波基函数(Wavelet basis function),多项式基函数(Polynomial basis function)等。一般的函数型数据问题都可以用以上四个基函数来拟合,其中最常用的是多项式基函数,傅里叶基函数较适合处理周期性函数型数据,样条基函数较适合处理非周期性函数型数据。

(三)惩罚函数

函数型数据曲线的光滑处理。惩罚函数法是传统的函数型数据曲线的光滑方法。如果我们只考虑拟合的函数曲线的逼近程度,那么我们得到的曲线可能出现波动或震荡,为了避免曲线的波动和震荡等情形,我们通过增加惩罚函数项的方法,这样既保证了函数光滑的连续性,又可以较好地兼顾拟合的接近程度。

一个正的平滑函数F(t)的粗糙度为它的对数W(t)的粗糙度,粗糙度惩罚为二阶导数的平方再积分,即

由于拟合函数二阶导数的绝对值越小,它的曲率就越小,则知道了惩罚函数项,就得到带惩罚函数项的公式:

这里的λ是惩罚项的平滑调整参数,起调整惩罚力度的作用,估量拟合函数与观测数据之间的转换率。当λ变大时,非线性函数将受到惩罚项也随之增大的惩罚力度,那么复合标准的PENSSEλ(F)要更多的重视F的光滑度,减少对数据的过度拟合。因为,当λ趋向于正无穷时,拟合曲线F必须接近观测数据的标准线性回归,这时PEN2(F)=0。当λ变小时,对变量的惩罚力度变小,曲线F就会变得“粗糙”,当λ趋向于零时,曲线F接近于数据的插值。

五、函数型数据及约束函数

中国贫困人口问题一直以来被社会广为关注,专家学者也从不同视角就此问题开展了深入的研究。在对国内和国外官方和学术界就此问题发布的观点来看,大家普遍有一个共识,即收入分配不均衡是形成贫困问题的重要因素。贫困人口统计是实现公平财政分配的基础,是实现社会保障有效性的基础,是政府制定各项社会保障与反贫困制度的依据。因此贫困人口统计工作是当前一项重要而有重大意义的工作任务。

我们对各种贫困线的测算方法进行分析比较发现,收入分布函数测算方法能很好地克服受样本容量以及样本数据中极端值的影响不能真实反应地区贫困的状况,收入分布函数能够更加客观地反映一个地区贫困的实际情况。因此,对收入分布函数的曲线拟合就显得尤为重要。

下面以2013年北京市统计局调查的5000户城市居民家庭收入分组数据(见表1-1)为例,说明收入概率密度函数f(t)与收入分布函数F(t)。

表1 2013年北京市城镇居民家庭平均每人月可支配收入调查分组数据表

以调查人数为2100人的高收入户为例,平均每人月可支配收入为5992.83元,调查的总人数为

2900+2800+2500+2500+2100=12800(人)

则f(5992.83)表示平均每人月可支配收入为5992.83元以上的高收入户调查人数占全部调查人数的比例,即

f(5992.83)=2100/12800 ≈ 0.1641

对于分布函数F(t)来说,F(t)表示收入不超过t的收入者人数占全部收入者人数的比例。如表1所示,平均每人月可支配收入在2956.58元(含2956.58元)以上的调查人数共有8200人,则

F(2956.58)=8200/12800 ≈ 0.6406

我们用四次 B - 样条以[1.5428e+003 2.3593e+003 2.9566e+003 3.7193e+003 5.9928e+003]为节点利用本文所提出的函数型数据的限制函数的思想进行限制,同时增加惩罚函数,经过调试对比得到拟合结果见图1。

图1 三角形点表示原始数据;红色曲线为拟合曲线

输出结果表1-1

其中四次B-样条函数如下:

图2 三角形点表示原始数据,红色曲线为拟合曲线

结果表1-2

其中四次B-样条函数如下:

图3 三角形点表示原始数据,红色曲线为拟合曲线

输出结果表1-3

图1为使用本文函数型数据限制函数的思想利用样条基底拟合的分布函数曲线,图2为使用一般方法,没有应用函数型数据限制函数的拟合分布函数曲线,图3为未应用限制函数的高斯拟合曲线,从图1中我们可以看出利用函数型数据的思想对拟合函数进行限制之后,我们限制了函数的非负性和单调递增性,这样就满足了所要拟合的分布函数的非负性和单调不减性的性质,并且用样条基拟合的曲线具有很好的光滑度。而未使用函数型数据的限制函数思想得到的拟合曲线不仅光滑度不够好,而且从图2可以看出拟合曲线虽然满足了单调性但是不能保证分布函数的非负性;图3中拟合曲线只满足了非负性不能满足分布函数单调不减性。

综上可以看出,函数型数据的限制函数的思想能很好地解决拟合过程中一些满足特殊性质的函数的要求,限制函数的思想不仅可以应用到我们拟合函数的思想中,也可应用到其他具有特殊性质的函数的研究中,有待我们进一步深入讨论。

六、结论

本文在应用B-样条基函数的前提下,深入研究了带有约束条件的函数型数据的B-样条曲线拟合法,这种方法对于局部修正函数及保证函数的整体性质方面具有重要的实际意义,结果表明,利用带有约束条件的函数型数据的分析方法进行曲线拟合,不仅能很好地保持函数原有的性质,另外,通过粗糙度惩罚项的设定可以使拟合的曲线更光滑。

我们将带有约束条件的函数型数据的分析方法与B-样条曲线拟合法相结合,建立具有良好拟合性质的动态模型,得到了满足约束条件的拟合曲线,既符合分布函数的性质,又很好地满足了拟合优度和光滑性,最后将此方法应用到北京市城镇低保水平的测算中,为切实做好城镇居民的最低保障标准和扶贫工作,提高贫困居民的生活水平,缩小两极分化,发挥政府的二次分配调节能力提供了理论依据,同时也为低保政策的制定和修改提供了有效的理论模型。

[1]Aziz J,Duenwald C.China's provincal Growth Dynamics.IMF,Working paper,2001.

[2]Howard Lydall.The structure of Earnings.London:Oxford University Press,1968.

[3]Kmietowiez Z W,Ding H.Statistical analysis of income distribution in the Jiangsu province of China.TheStatistieian,1993,23(7):23-33.

[4]Salem and Mount.Aconvenient descriptive model of income distribution:The gamma density.Econometrica,1974,42(6):65 -82.

[5]胡航宇:《非寿险损失和理赔分布拟合方法研究》,南京,河南大学硕士学位论文,2006。

[6]黄恒君、刘黎明:《一种收入分布函数序列的拟合方法及扩展应用》,载《统计与信息论坛》,2011(12)。

[7]黄恒君、漆威:《海量半结构化数据采集、存储及分析——基于实时空气质量数据处理的实践》,载《统计研究》,2014。

[8]陈涛、阮敬:《收入分布的正态插值函数拟合方法与数据分组数的关系分析》,载《统计与决策》,2013(7)。

[9]吴楠、孟凡坤、周致远:《基于样条拟合和双向滤波的助推段弹道估计》,载《飞行器测控学报》,2014(5)。

[10]Ramsay J O,Silverman B W.Functional Data Analysis.2 ed.New York:Springer,2005.

[11]Ramsay J O.When the Data are Functions.Psychometrika.1982,47(4):379 -396.

[12]Ramsay J O,Dalzell C J.Some Tools for Functional Data Analysis.Journal of the Royal Statistical Society.Series B(Methodological).1991,53(3):539 -572.

[13]Grenander U.Stochastic Processes and Statistical Inference.Arkivfor Matematik.1950,1(3):195 -277.

[14]Rao C R.Some Statistical Methods for Comparison of Growth Curves.Biometrics.1958,14(1):1 -17.

猜你喜欢
样条惩罚曲线
未来访谈:出版的第二增长曲线在哪里?
一元五次B样条拟插值研究
幸福曲线
沿平坦凸曲线Hilbert变换的L2有界性
神的惩罚
Jokes笑话
惩罚
三次参数样条在机床高速高精加工中的应用
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
基于样条函数的高精度电子秤设计