基于负二项稀疏算子和推广的负二项稀疏算子的INAR(1)模型的比较

2024-03-16 10:11赵宸稷张庆春曹晓涵
科学技术创新 2024年6期
关键词:新息真值样本量

赵宸稷,张庆春,曹晓涵

(1.吉林化工学院 信息与控制工程学院,吉林 吉林;2 吉林化工学院 理学院,吉林 吉林)

近几十年来,整数值时间序列的建模问题受到学者广泛关注,基于稀疏算子构建整数值模型是研究整数值时间序列的主要方法。其中基于二项稀疏算子的整值INAR(1)模型[1]是最为经典的模型。例如近年来,基于二项稀疏算子利用预设边际分布法,Nasti'c 等2016 年基于二项稀疏算子建立的一元一阶整数值自回归模型[2],Popovi'c 等2016 年建立了具有相同几何边际分布的二元INAR(1)模型[3]等。为了刻画传染病过程、繁殖过程和犯罪过程等具有活跃的数据生成机制,Risti'c 提出了负二项稀疏算子[4],很多学者基于负二项稀疏算子建立了INAR(1)模型,例如利用预设边际分布法,Barreto-Souza 和Bourguignon 在2015 年基于修正的负二项稀疏算子考虑了以Laplace 分布为边际分布的INAR(1)过程[5]。但由于自身定义的原因,负二项稀疏算子不适合利用预设新息过程的分布法构建INAR(1)模型,张等(2020)提出了一个推广的负二项稀疏算子并基于该稀疏算子利用预设新息过程的分布法建立了二元INAR(1)模型[6]。基于推广的负二项稀疏算子利用预设边际分布法,Aleksi'c MS 和Risti'c MM 在2020 年提出了一个几何修正整数值自回归模型[7]。这表明推广的负二项稀疏算子在利用预设新息过程分布的方法构建INAR(1)模型是非常重要的。文献[6]中已经指出利用预设新息分布法基于负二项稀疏算子的INAR(1)模型(NBINAR(1))在x=0 点时概率质量不存在从而其所有边际分布不存在,从而NBINAR(1)模型不存在。本文将从数值模拟的角度,通过假定该模型的一步转移概率是存在的,利用条件极大似然方法对该模型的参数进行广泛地模拟研究,并将该模型的估计结果与利用预设新息分布法基于推广的负二项稀疏算子构建的INAR(1)模型(ENBINAR(1))的结果相对比,来进一步说明NBINAR(1)模型不存在的原因。进而表明推广的负二项稀疏算子在利用预设新息项分布法构建INAR(1)模型时的必要性。

1 模型的定义

1.1 ENBINAR(1)模型

把满足迭代方程(1)的过程称为基于推广的负二项稀疏算子的INAR(1)过程:

记作ENBINAR(1)过程。其中“*E”表示推广的负二项稀疏算子,其定义如下:

在(2)式中X 表示非负整数值随机变量,参数α 满足α∈(0,1),Wj相互独立且服从参数为α 的几何分布,其分布律为εt为新息项。

1.2 NBINAR(1)模型

把满足迭代方程(3)的过程称为基于负二项稀疏算子的INAR(1)过程记作NBINAR(1)过程。

其中“*”表示负二项稀疏算子,其定义如下:

同样的,在式(4)中X 表示非负整数值随机变量;参数α 满足α∈(0,1),Yi相互独立且服从参数为α的几何分布,其分布律为εt为新息项。

注意到,ENBINAR(1)模型和NBINAR(1)模型区别在于:ENBINAR(1)模型中Wj是从1 取到x+1,而在NBINAR(1)模型中Wj是从1 取到x。

2 参数估计

ENBINAR(1)模型和NBINAR(1)模型的一步转移概率形式上都可以表示为:

其中,f2(k)为新息过程的密度函数,在ENBINAR(1)模型中在NBINAR(1)模型中

因此两个模型的条件似然函数形式都表示为

其中θ 是未知参数向量,θ 的条件极大似然估计可通过最大化下面的条件对数似然函数得到

3 模拟研究

本节中,我们通过一系列的数值模拟来比较极大似然估计(CML)在评估两个模型NBINAR(1)模型和ENBINAR(1)模型中的效果。将两个模型的新息项分布分别取作泊松分布和几何分布。

(1) 当新息项取泊松分布时,式(5)中的f2(k)形式为:

(2) 当新息项取几何分布时,式(5)中的f2(k)形式为:

模拟研究的样本量分别取100,300 和500,所有的模拟研究都是在R 软件环境下基于1 000 次的重复计算的结果,以下是两个模型NBINAR(1)模型和ENBINAR(1)模型基于CML 估计的均值(Mean)和均方误差(MSE) 以及标准误差(SE) 的对比。注意到,在NBINAR(1)模型中,为了估计的顺利进行,原本当xt-1为0 时,其一步转移概率中f1(xt-k)的前半部分,即没有定义,但为了模型的运行,本文将其设定为1。

从表1、表2 两个模型模拟的数据结果对比可以看出,随着样本量的增大,两个模型的Mean 值会越来越趋近于真值,但ENBINAR(1)模型趋近于真值的速度更快;对于两个模型的MSE 和SE 也越来越小,注意到,当λ 很小,靠近于1 时,ENBINAR(1)模型的MSE 和SE 更小,说明两个模型当λ 大于1 时,两个极大似然估计量都具有渐近性。但当λ 逐渐靠近1时,ENBINAR (1) 模型极大似然估计量的估计效果更好。值得注意的是,当λ 大于0 小于1 时,NBINAR(1)模型的估计值和真值差距非常大,尤其是λ,其估计值比真值小好多数量级,经四舍五入后均为0。但ENBINAR(1)模型的估计效果很好,且估计量具有渐近性。分析NBINAR(1)模型在λ 大于0 小于1 估计的效果很差的原因为数据中0 出现的次数过多,例如当α=0.1,λ=0.3,样本量为100 时,数据中里面为0 的个数为87 个,数据里面为0 的概率达到了87%。当λ 大于1 时,随着λ 增大,数据里面0 出现的个数越来越少,两个模型的Mean,MSE 和SE 的差距越来越小。因此,从模拟结果可以清晰看出NBINAR(1)模型中当出现0 的个数过多时,会影响其参数估计的结果和效果。更进一步的说明不能忽视x=0 的边际分布不存在进而整个NBINAR(1)模型的边际分布不存在的事实,因此,模拟结果更直观地说明了基于利用预设新息分布法基于负二项稀疏算子构建的INAR(1)模型是不存在的。

表1 新息项为泊松分布时,两个模型的Mean,MSE,SE 的对比

表2 新息项为几何分布时,两个模型的Mean,MSE,SE 的对比

4 结论

本文通过对利用预设新息分布法分别基于负二项稀疏算子和推广的负二项稀疏算子建立的INAR(1)模型进行极大似然估计并进行数值模拟研究,模拟结果表明:当两个模型的新息项分别取泊松分布或者几何分布时,λ 大于1 时,两个模型的Mean 随着样本量的增加而趋近于真值,且MSE 越来越小,而基于推广的负二项稀疏算子的INAR(1)模型的Mean 趋近于真值的速度更快,且SE 和MSE 要比基于负二项稀疏算子的INAR(1)模型的要更小。值得注意的是,当λ大于0 小于1 时,NBINAR(1)模型中由于零出现的次数偏高,导致其估计值和真值差距很大,但ENBINAR(1)模型的估计效果很好。这再次验证了不能忽视基于负二项稀疏算子的INAR(1)模型在x=0 点时概率质量不存在的事实,直观地说明基于负二项稀疏算子的INAR(1)模型不存在,也进一步阐明了推广的负二项稀疏算子对于构建INAR(1)模型的重要性和必要性。

猜你喜欢
新息真值样本量
医学研究中样本量的选择
传递函数辨识(21):线性回归系统的递阶递推参数估计
航空装备测试性试验样本量确定方法
M估计的强跟踪SVD-UKF算法在组合导航中的应用
Sample Size Calculations for Comparing Groups with Binary Outcomes
10kV组合互感器误差偏真值原因分析
自适应卡尔曼滤波在航空重力异常解算的应用研究
基于新息正交性自适应滤波的惯性/地磁组合导航方法
真值限定的语言真值直觉模糊推理
基于真值发现的冲突数据源质量评价算法