石美丽
延安大学数学与计算机科学学院 陕西延安 716000
变点问题渊源已久,可以追溯到1954年Page关于连续抽样检验的讨论。自20世纪70年代以来,对于变点问题的探讨以及对变点性质的研究一直是统计界的热门话题。比如,在工业自动控制中的质量检测、在经济与金融中的数据分析、气象中的天气预测、流行病学中传染率的研究以及导航系统分析和心电图中的韵律分析等方面有大量的应用背景。而进入21世纪以来,随着科技的发展,我们所关心的问题面临着大规模数据的挑战,这种数据往往以张量的形式呈现。因此,变点问题的研究又迎来了一个高峰时期,而对于变点的研究,我们首先关心的是存在与否的问题。所以,应用数理统计方法对于变点进行检验是十分必要的。
Quandt(1958)最早提出来两阶段回归模型,即至多含有一个变点(AMOC)模型,利用最大似然法对简单回归模型中的参数进行估计,并在1960年利用似然比检验对于变点的存在性进行检测。而Quandt有关变点的估计与假设检验问题是基于小样本的。Kim(1989)利用似然比检验研究了AMOC的一元线性模型中的截距项的变点问题,并于1994年使用似然比检验统计量研究了一般线性回归模型中变点的检测问题。陈希孺1991年的变点统计分析简介中,讨论了包含多个变点的研究是在含有一个基础上的“量变”。并且Bai(1998)将纯参数变点问题推广到局部参数变点,对线性模型中的变点问题研究做了很好的补充。因此,对于AMOC模型的变点问题研究具有更广泛的意义。
Kolda(2006),Kolda和Bader(2009),Lu(2019),Zhang(2019)等对张量分解进行大量研究,并且在此基础上运用于我们生活当中,如卫星健康监测问题[马友等(2020)],信息工程自动化控制[Zhang等(2016),Li等(2018),Zhang等(2019),Zhang等(2020),Wang等(2020)],医学诊断问题[Crainiceanu等(2011);Allen等(2011);Hoff(2011);Aston和Kirch(2012);Zhou等(2013),Kilmei13等(2013),Li等(2018)]。后者Zhou等与Li等分别基于张量的CP分解和Tucker分解构造出神经成像与临床结果之间的广义线性模型,并研究了点估计量及其大样本性质。并且基于张量的CP分解以及Tucker分解,我们(2020)以及徐常青等(2021)进一步探讨了参数张量的估计,给张量变点问题提供了大量的研究基础。
本论文从变点理论的研究背景出发,基于正态分布假设,对最多含有一个参数变点的线性回归模型的参数变点进行统计推断和预测估计。若变点位置已知,关于变点位置是否存在的检验问题,在正态假设的基础下,我们可以用F检验,因此以下的讨论过程中,我们只考虑变点位置不知道的情形。并且由于正态假设,可以证明LR方法、方法以及LM方法在检验和估计问题上是等价的,所以本文中我们仅仅讨论LR方法分别在一般线性回归模型以及张量线性回归模型中的运用。
对于一元线性回归模型,即=+(=1,…,),Kim和Siegmund(1989)考虑了至多一个变化点的似然比检验,并推导出检验显著性水平的解析近似。并且Kim(1994)进一步将其推广在多元的情况,研究其检验和统计推断问题。这里我们讨论多元情况,模型如下:
(2.1)
其中表示可能的变点位置,=(1,,1,…,,-1)一般假设是i.i.d.的,且服从均值为(|)=0,方差为(|)=的正态分布。
变点是否存在等价于如下假设检验问题:
:=↔:≠.
当=时,令:
则模型(2.1)矩阵形式等价于:
=+.
令=(1,-1),上述假设检验等价于:
:=0↔:≠0
由LR检验构造似然比检验统计量
由于是未知的,所以检验统计量为:
其中是一个维的布朗桥,1<<<,Kim和Cai有关于,的具体讨论。
考虑到张量分解结构的复杂性,以及类比矩阵的谱分解,我们对D阶张量∈×…×做如下设定,
对于一般的张量线性回归模型:
其中是截距项,∈是向量系数,是张量系数。关于以及在AMOC模型中的讨论,具体办法(2.1)及概述中已涉及,这里不再赘述。我们这里只讨论最简单的情况,即=1时,模型如下,
(2.2)
由于本质仍然是D阶张量,作为变化参数相对复杂,所以这里我们将看成冗余参数,只考虑半参变化,即关于模型(2.2)有如下假设检验,
模型(2.2)的矩阵形式为:
=+,
:=0↔:≠0
由正态假设下,LR检验的特殊性,有:
由于是未知的,所以检验统计量为:
当>时,我们就可以拒绝原假设,接受备择假设。
这里需要明白,关于判定是否接受原假设,更好的办法是,知道统计量的极限分布,然后给定置信区间。这也是我们接下来要研究的部分,以及将其推广到广义线性,更进一步可以结合张量Tucker分解进行讨论。
本文总结了AMOC线性回归模型中参数的统计性质,以及将变量从向量扩展到张量的形式,给出LR检验对应的检验统计量,给我们进一步的工作打下基础。接下来我们可以考虑其大样本性质,以及张量中其他参数或多个参数作为结构变化的影响者的情形。进一步可以结合张量的Tucker分解将其扩展到广义线性模型。