包文清
(浙江师范大学 数理与信息工程学院,浙江 金华 321004)
设有独立变量x1,x2,…,xm构成的自变量x,应变量y,则非线性回归的一般形式为
y=f(x1,x2,…,xm)+ε,E(ε)=0,Var(ε)=g(x1,x2,…,xm)≥0.
然而,如果考虑到描述现实世界的数学模型中各因数的随机性,则上述模型可表述成
E[Y|X1,X2,…,Xm]=f(X1,X2,…,Xm),Var[Y|X1,X2,…,Xm]=g(X1,X2,…,Xm)≥0.
(1)
式(1)中:Y是随机变量;X1,X2,…,Xm是相互独立的随机变量元.
对于高维回归问题,人们主要关心的是模型中变量的选择和模型的有效表示,常用方法可归纳为:从局部到全部的综合法或从全部到局部的分析法.局部到全部的综合法由Whitney[1-2]等开创,主要借助可微结构进行综合;后经Allen等努力得到了长足的发展[3];21世纪初,Sobol等[4-5]在该方面取得了一大批新成果.全部到局部多指标分析法以集合论、群论、矩阵理论为工具,在20世纪末由张应山[6]提出,且广泛应用于正交设计、工业质量管理等方面[7-11].笔者以多边矩阵理论为基础,以集合论为工具(主要用集合表示多指标组),研究了全局方差分析的问题.研究发现,源于物理问题的全局分析法在变量选择和模型的有效表示方面有很大的优势.
假设模型(1)中的f(x1,x2,…,xm)平方可积.
首先,根据文献[6]定义一些概念和记号.
设Ω={1,2,…,m}.对∀M⊂Ω,令XM={Xi:i∈M},HM=E[Y|XM],特别地,Hφ=E[Y],HΩ=f(XΩ),其中E[Y|XM]是Y关于XM的期望.
定义EXM(*)=E[*|XMc],其中Mc=Ω-M.根据条件期望的性质和X1,X2,…,Xm的独立性假设,有
(2)
对于∀M⊂Ω,M≠φ,∀Xj,Yj∈R,易得:
(3)
(4)
其中|*| 表示集合的基数.
定义δM,N=δM-NδN-M,则当M=N时δM,N=1,否则δM,N=0.换言之,δM,N是Kronecker记号,且有δM=δM,φ.
另外,还有:
(5)
(6)
证明 由式(4) 可得
证明 由式(5)和式(2)可得
证明 由式(2)可得
证明 由式(4),式(5),式(2)及引理1可得
由SM=0可知P(JM=0)=1.借助于敏感性指标可以对JM进行排序,并根据要求删除一些不重要的JM.
下面通过一个典型实例说明全局敏感性分析的有效性.
(7)
因此,对∀M⊂Ω,M≠φ,
由定义2及定义3可得
不妨设m=6,(p1,p2,…,p6)=(0,1,4.5,9,99,99),可得(STot{1},STot{2},…,STot{6})=(0.787,0.242,0.010 5,1.05E-04,1.05E-04).这一结果与X1,X2,…,X6中的pi(i=1,2,…,6)指标说明一致,这说明可以通过计算每个变量的全局敏感性总指标来确定这些变量对模型的影响,从而可根据具体要求剔除一些不显著指标,达到降维简化模型的目的.
另外,表1按降序列出了部分JM的全局敏感性指标.从表1看出:虽然定理1中的正交分解式有2|Ω|项,但对于实际问题而言,模型的近似表示式往往只需其中一小部分而已.
表1 降序列出部分
[1]Whitney H.Differentiability of the remainder term in Taylor′s formula[J].Duke Math J,1943,10(1):153-158.
[2]Whitney H.Differentiable even functions[J].Duke Math J,1943,10(1):159-160.
[3]Allen K N.Undaunted genius[J].Clark News,1988,11(1):9-11.
[4]Sobol I M.Theorems and examples on high dimensional model representation[J].Reliability Engineering and system safety,2003,79(2):187-193.
[5]Sobol I M,Tarantola S,Gatelli D,et al.Estimating the approximation error when fixing unessential factors in global sensitivity analysis[J].Reliability Engineering and system safety,2007,92(7):957-960.
[6]张应山.多边矩阵理论[M].北京:中国统计出版社,1993.
[7]张应山,茆诗松,张从赞,等.具有两种因果关系逻辑分析模型的稳定性结构[J].应用概率统计,2005,21(4):366-374.
[8]冯乃勤,邱玉辉,张应山,等.基于生态学的复杂系统稳定性逻辑分析模型[J].计算机科学,2006,33(7):213-216.
[9]Zhang Yingshan,Lu Yiqiang,Pang Shanqi.Orthogonal arrays obtained by orthogonal decomposition of projection matrices[J].Statistica Sinica,1999,9(2):595-604.
[10]Zhang Yingshan,Pang Shanqi,Jiao Zhengming,et al.Group partition and systems of orthogonal idempotents[J].Linear Algebra and its Applications,1998,278(1/2/3):249-262.
[11]Zhang Y S,Pang S Q,Wang Y P.Orthogonal arrays obtained by generalized Hadamard product[J].Discrete Mathematics,2001,238(1):151-170.