张丹娜,韩岳峰,庞天晓
(浙江大学 数学系,杭州 310058)
回归分析是研究一个或多个随机变量与另一些变量之间关系的统计方法。在过去100多年的发展中,传统的回归分析通过估计连续函数来表示这种自变量和因变量的因果关系。然而,现实中有很多经济模型,用连续函数进行估计误差较大,经济意义也不明确。如实际问题中有很多不确定的因素,使得某个变量的值不是连续变化而是突然跳变的。最典型的例子就是房地产价格的走势,如果在较长时间内房价持续攀升,国家会出台一系列相关的房产政策抑制房价过快增长,假使政策有效,房价的增长速度必然会在短时间内发生跳变,所以传统的回归模型显然不能满足需要。
Qiu Peihua[1]在1991年第一次提出了跳回归分析(Jump Regression Analysis)的方法,用以估计带噪声的不连续曲线和表面。直到现在,国内对跳回归的理论和应用分析文献比较缺乏。张亮等[2]采用跳回归分析对CT图像进行预处理,抑制了肺区中支气管、血管以及肺部纹理,保留了肺以及肿瘤的边界,有利于对肺区和肿瘤的分割。阮正旺等[3]基于跳回归分析去除由摄像系统的物理缺陷或传输中的解码错误而生成的椒盐噪声,并且通过跳变检测很好地保持边缘。上述两文都是二维的跳回归模型在图像处理中的应用,主要体现了其去噪保边的良好性质。目前尚未有国内学者把一维跳回归模型应用于实体经济的分析中,本文首次将跳回归模型应用于房价走势分析,利用实例阐述跳点检测对于解释房价走势跳变的意义。
设{(xi,yi)i=1,2,…,n}是n个观测点,满足假设:
yi=f(xi)+εi,εi,i.i.d~N(0,σ2)(i=1,2,…,n)
其中自变量xi等间距地分布在区间[0,1]中。假设回归函数f的前(m-1)阶导数在定义域中是连续的,而f的第m阶导数是有跳跃的。
Qiu[4]提出f的第m阶导数有如下模型:
其中g(x)是连续函数,p是f(m)的跳跃点个数,{sj,j=1,2,…,p}是跳跃点位置,而{dj,j=1,2,…,p}是各跳跃点跳的幅度。
一般地,对于经济模型,以我们要分析的房价走势为例,以时间为自变量,房价为因变量建立数学模型为
yi=f(xi)+εi,εi,i.i.d~N(0,σ2)(i=1,2,…,n)
由于某时刻的房价是在前一段时间的基础上进行增减,所以房价总是呈现一种相对连续的状态,但在一些外部因素如市场刺激、国家政策等的影响下,房价增减的速度有所变化,甚至是突变,所以我们可认为房价的增长率即其一阶导f'是有跳跃点的,而原函数f是连续的,故取m=1。
对于模型(1),我们不必估计g(x)和{dj,j=1,2,…,p},事实上,它们的估计并不容易,估计房价走势的跳点{sj,j=1,2,…,p}才是必要步骤。影响房价走势的因素有很多,但不外乎两类:一是国家经济的宏观调控,即政策层面;二是购房者的消费刺激,即市场层面。假设我们已检测出各个跳变的时刻{sj,j=1,2,…,p},那么我们的分析依据如下:如果在跳点时刻(或附近)实行了房产政策,且该政策的预期效果与跳变的方向(可从dj的正负号判断出)价走势在该处的突变是由房产政策引起的,反之则认为是市场诱导的结果。而研究连续函数g(x)对解释房价走势的跳变没有任何意义。由此,我们只需估计跳点{sj,j=1,2,…,p}和判断跳变方向即{dj,j=1,2,…,p}的正负。
Qiu和Yandell[5]提出了一种基于多项式估计的跳点检测方法。
对每个给定的xi,ℓ+1≤i≤n-ℓ,ℓ≤n是一个取定的正整数,考虑邻域N(xi)={xi-ℓ,xi-ℓ+1,…xi,…,xi+ℓ-1[,xi+ℓ}],宽k=2ℓ+1。在这个邻域中,用最小二乘估计拟合m+1阶局部多项式估计出的回归系数的跳跃点是很敏感的,可用来检测f(m)的跳跃点。事实上,对于一个给定的xj,如果在邻域N(xj)中没有跳跃点且在N(xj)中存在时,那么应该和很接近。反之,如果xj是f(m)的一个跳跃点,那么+1.…n- ℓ}会在有一个明显的突变。所以我们可以用对跳点进行检测。
在房价走势分析中,取m+1,故用最小二乘估计拟合的局部多项式为:
Qiu和Yandell[5]定义了如下用于跳点检测的变量:
由Δ(i)的定义得
所以取ui=U1-a/2.σ(i),U1-a/2是标准正态分布的1-a/2下分位数,即可保证是显著性水平。
下面推导σ(i)的具体表达式。由于σ是未知的,所以我们用σ的估计值来代替,即:
当xij等间距地分布在区间[0,1]中,可设…,n,如果有整数r1和r2使得:
则被标记的跳跃点{xij,j=r1,r1+1,…,r2}构成一个带,如果出现这种情况,Qiu[4]提出生成一个新的跳跃点代替这些点。为了避免该产生的跳跃点不在自变量的坐标点上,也为了选出跳跃最显著的点,则改为:
代替这些点,以上便是调整过程。由此确定最后的跳跃点为{sj,j=1,2,…,p}。
综上所述,基于多项式估计的跳点检测步骤如下:
(1)对于任一给定的点xi,ℓ+1≤i≤n-ℓ,在邻域N(xi)中拟合局部多项式
(3)用ui=U1-a/2.σ(i)计算ui
(4)如果|Δ(ij)|>uij,则把 {xij,j=1,2,…,n1}标记为跳跃点
(5)用调整过程确定最终的跳跃点{sj,j=1,2,…,p}
为了更好地说明跳回归模型及其跳点检测在房价走势分析中的应用,鉴于杭州市的房地产价格波动状况以及杭州市政府所施行的房产政策在全国具有高度的代表性和典范性,笔者选择了杭州市2008~2010年的二手房均价(周房价)走势作为实际例子,房价走势图如图1,本文的数据来源于房价网(http://www.fangjia.com/)杭州站,部分数据见表1。
表1 2008~2010年二手房均价表
图1
图2
运用Matlab数学软件,具体运算时将房价数值缩小1000倍。由于用次数越高的多项式拟合同一曲线,误差平方和越小,在此例中,用8次的多项式和9次的多项式做最小二乘估计得到的误差平方和相同。故用拟合的8次多项式估计标准差σ。取ℓ=4,显著性水平a=0.05,可得到0.4048,U1-a/2=1.96。
对i=9,10,…,147,ui=1.8604×103,Δ(i)的趋势图如图2,被标记的跳跃点为{x96,x115,x116,x117,x120,x122,x136}
经过调整过程,最终的跳跃点为{x96,x116,x121,x136}(在图1中用实心点标记),分别对应日期:2009年11月8日,2010年3月28日,2010年5月2日,2010年8月15日,即房价增长率有突变的日期。
由以上的跳点检测,并结合2008~2010年房地产市场在政策和市场层面的变动,我们可对3年间的杭州市房价走势作如下分析。
从2008开始,如何应对金融危机带来的挑战成为政府的当务之急,受益于宽松的货币信贷环境和房地产优惠政策,杭州房地产市场逐渐从次贷危机的打击中恢复过来,整体呈现繁荣的景象,市场回暖持续稳定。2009年以来,房价居高不下,一直保持有蓄势再发之势。11月初,国土资源部印发了《限制用地项目目录(2006年本增补本)》和《禁止用地项目目录(2006年本增补本)》,其中针对商品住宅用地的宗地出让面积首次给出明确的上限,业内人士分析此举是为了遏制09年以来“地王”频出的现象,遏制房价增长过快。再加之银10月过后的11月,年终岁末,时值传统的购房淡季,房价会呈现骤减的姿态。而用跳回归模型检测到的2009年11月8日处的跳跃点(dj为负)正说明了政策宏观调控和市场自发调节的有效性。
2009年底,政府出台一系列调控政策,遏制投机炒作和房价过快上涨。2010初这些政策的效果更加显现,1—2月,楼市出现了交易量萎缩,房价上涨趋缓的趋势。但进入3月份,房地产市场发生变化,尤其是3月下旬,杭州的土地拍卖价格不断刷新,楼市反弹(对应于2010年3月28日的跳跃点),出现销售火爆、房价快速上涨的现象。究其原因,是楼市在经历冰冷时期过后,在以投资为主导的市场刺激的结果。购房者打破了之前的观望态度,促使杭州楼市出现急速回暖。
为应对4月份以后楼市更加火爆和房价攀升异常快速的场面,4月份中下旬国家再次出台了一系列严厉的政策。国务院在5天之内连续出台三大新政:4月15日国务院发文,购买第二套住房的家庭首付款比例不低于50%、贷款利率不低于基准利率1.1倍;4月17日,国务院对三套房贷提出具体要求:在商品住房价格过高、上涨过快、供应紧张的地区,商业银行可根据风险状况,暂停发放购买第三套及以上住房贷款;4月19日建设部发“53号令”:未取得预售证的商品房,不得进行任何形式的预销售,取得预售证的项目,要在10日内—次性公开全部准售房源及每套房屋价格,明码标价对外销售。而2010年5月初的跳跃点(dj为负)便很好地体现了这一系列政策的调控效果。
此后的3个月时间里,房价走势受新政影响持续下降,直到7月底8月初,楼市才初显回温,一是由于距4月的政策发布已满百日,政策时效已不显然;二是第3季度是购房热季,市场消费本身较为火热。7、8两月中央无任何政策调控,所以房价在2010年8月15日的跳跃可解释为市场调节的结果。此后,房价走势的突变已逐渐不明显,不再有其他跳点。
尽管目前跳回归模型和基于多项式估计的跳点检测方法被应用于实际建模的情况还较少,但从上述的分析足可见其在分析房价走势问题的优势。首先,从经济意义上,通过跳点检测,可以以跳点为界把时间轴分成几段,分别讨论每段的房价走势变化,跳点处单独分析其成因,意义清晰明确。其次,从检测的准确性上,基于多项式的跳点检测方法误差很小,从实例中,我们也可看出,检测到的跳点与房产政策出台后理论上预测的房价走势跳变偏差很小,几乎是在同样的时刻。另外,这种方法在实际应用中很具有操作性,不必求出房价的增长率即一阶导数值而只在房价原始数据的基础上便可分析房价增长的快慢变化,事实上,要找一种数学方法拟合出精确的导数值并保持其原本的间断性并不容易。而从统计意义上来看,跳点的检测问题最终转化成为假设检验问题,判断跳变与否的准则的严格性取决于分析者选取的显著性水平,具有很大的灵活性。
[1]Qiu Peihua.Estimation of a Kind of Jump Regression Functions[J].Systems Science and Mathematical Sciences,1991,4(1).
[2]张亮,张建州.基于统计跳变回归分析的肺部CT图像分割[J].计算机工程与应用,2008,44(12).
[3]阮正旺,张建州,张亮.清除椒盐噪声的局部L1去噪保边方法[J].中国图象图形学报,2010,15(6).
[4]Qiu Peihua.Image Processing and Jump Regression Analysis[M].New-jersey:John Wiley and Sons,2005.
[5]Qiu Peihua,Yandell B.A Local Polynomial Jump Detection Algo⁃rithm in Nonparametric Regression[J].Technometrics,1998,40(2).