关海洋,唐燕武,杨联强
(1.安徽大学 数学科学学院,安徽 合肥 230601; 2.安庆师范学院 数学与计算科学学院,安徽 安庆 246133)
基于惩罚回归样条的函数导数拟合
关海洋1,唐燕武2,杨联强1
(1.安徽大学 数学科学学院,安徽 合肥 230601; 2.安庆师范学院 数学与计算科学学院,安徽 安庆 246133)
摘要:在函数形式未知,而已知该函数的带误差的离散数据点情况下,运用基于p次截断幂基的惩罚回归样条拟合数据点,并在拟合出的曲线基础上求出函数的一阶导数。该方法将经典最小二乘法和惩罚样条方法进行结合,既考虑了拟合优度,又兼顾拟合曲线的光滑性,模拟和实际应用的例子显示此种方法效果较理想。
关键词:数据拟合;回归;惩罚样条;导数
函数导数的计算是理论分析和实际应用中最常见的运算,但在很多情况下并不知道函数的初等形式,直接基于函数表达式的求导法则此时是无法使用的。例如,在现实世界中,有些函数只能收集到一些离散数据点(xi,yi),而且这些点是受到误差影响的,即yi=f(xi)+εi,εi是随机误差项,且f未知,此时如何估计该函数的导数值。该类问题在工程技术、数据分析等实际问题中非常普遍,所以对它的研究颇为重要。已有的导数估计方法有Bessel方法和Akima方法[1],而邢永旭,张彩明[2]在此基础上得到了基于三次参数曲线新的导数估计方法。JiguoCao,JingCai,LiangliangWang[3]提出参数惩罚样条回归方法估计函数及导函数曲线,并得出此种估计方法的精确性较高。江桂清[4]给出了连续约束和离散约束这两种对风洞试验所得的数据进行导数拟合方法,樊天薇[5]则给出了基于离散数据点的一阶导数估计方法。本文给出一种新的基于p次截断幂基的惩罚样条回归方法来拟合带有噪音数据的函数及其导数,并通过模拟和实际例子来演示该方法的有效性。
1惩罚回归样条拟合函数及其导数
对于给定的带有噪音的数据点(xi,yi),i=1,2,…,n,设其隐含的函数关系表示为
yi=f(xi)+εi
其中εi~N(0,σ2)为随机误差项。f未知,将基于p次截断幂基的样条函数设为
其中
β=(β0,β1,…,βp,βp1,…,βpk)T
Y=(y1,y2,…,yn)T
X=(X1,X2,…,Xn)T
ε=(ε1,ε2,…,εn)T
则
Y=Xβ+ε
(1)
(2)
则Y的估计值
(3)
D=diag(0p+1,1k)
即D表示前p+1个元素为0后K个元素为1的对角矩阵。并设模型(1)拟合目标函数为
‖Y-Xβ‖2+λ2βTDβ
(4)
其中λ2βTDβ称作惩罚项,λ称作惩罚参数,则β的广义最小二乘估计量为
(5)
从目标函数的设置易知,惩罚参数λ是用其来控制拟合曲线的对数据的拟合优度与曲线总体光滑度之间的平衡。如果太大的话会使得曲线整体过于光滑,而太小导致曲线波动性较大,对于它最优值的选择本文采用的是广义交叉验证GCV(generalized cross-validation)法,即通过搜索最佳的λ,使得如下定义的GCV得分达到最小[6,7]
则有拟合函数的一阶导函数估计式为
2模拟
本节给出两个模拟实例,以显示本文所提出方法的拟合效果,所有计算、作图、分析工作均在R3.02中完成。
图1,图2中拟合的均方误差分别为
图4函数及其拟合 图5导数及其拟合
图4,图5中的拟合均方误差为
3应用
图7是某次物理实验测得的小车位移x随时间t变化的散点图以及利用本文提出的方法得出的拟合函数图形。取截断幂基的次数p=2,节点取所有时间点,图8是图7曲线的一阶导函数图,即本次实验中的小车的瞬时速度曲线。
图7位移随时间变化图 图8速度随时间变化图
4总结
本文以基于截断幂基的惩罚回归样条为工具,给出了一种在已知函数带误差的离散数据点集的情形下,估计该函数的导函数的方法。该方法首先针对离散数据点集,通过惩罚样条回归拟合出函数的近似表达式,该近似表达式是以多项式形式给出的,通过该多项式表达式从而可以简洁的求出其导函数。该方法理论简单,计算快捷,模拟效果显示精确度较高,在实际应用中,具有较好的应用价值。
参考文献:
[1] 法中.计算机辅助几何图形设计与非均匀有理 B样条[M]. 北京:北京航天航空大学出版社,1994:78.
[2] 邢永旭,张彩明.基于三次参数曲线的导数估计方法[C].中国图学新进展2007——第一届中国图学大会暨第十届华东六省一市工程图学学术年会论文集,2007:105-107.
[3] Cao J,Cai J,Wang L.Estimating curves and derivatives with parametric penalized spline smoothing[J].Statistics and Computing,2012,22(5):1059-1067.
[4] 江桂清.风洞试验曲线及其导数的两个拟合计算方法[J].空气动力学学报,1982(1):60-65.
[5] 樊天蔚.用于曲线拟合的一个一阶导数估计方法[J].数值计算与计算机应用,1982,3(1):1-11.
[6] Ruppert D,Wand M P,Carroll R J. Semiparametric regression[M]. Cambridge university press, 2003:69.
[7] 靳云汇,金赛男.高级计量经济学(上册)[M].北京:北京大学出版社,2007:39-40.
[8]Trevor Hastie, Robert Tibshirani,Jerome Friedman.The Elements of Statistical Learning [M].2004:81-83.
Fitting Derivative Function Based on Penalized Regression Spline
GUAN Hai-yang1,TANG Yan-wu2,YANG Lian-qiang1
(1.School of Mathematics and Computation Science, Anhui University, Hefei 230601, China;
2. School of Mathematics and Computation Science,Anqing Teachers College,Anqing 246133,China)
Abstract:When the function is not identified but its discrete data points are given, fitting function based on penalized spline with pth-degree truncated power basis is constructed, and the first derivative of function is given. The method combines classical ordinary least squares and penalized spline smoothing, both the goodness and the smoothness of fitting curve are considered, simulations and application show its good efficiency.
Key words:data fitting, regression, penalized spline, derivative
中图分类号:O212.7
文献标识码:A
文章编号:1007-4260(2015)01-0013-03
DOI:10.13757/j.cnki.cn34-1150/n.2015.01.004
通讯作者:杨联强,男,安徽桐城人,博士,安徽大学数学科学学院副教授,研究方向为数据分析与统计计算。
作者简介:关海洋,男,安徽阜阳人,安徽大学数学科学学院硕士研究生,研究方向为统计学。