范晓东,崔 莹,张庆春
(1.吉林化工学院 理学院,吉林 吉林 132022;2.辽宁师范大学 数学学院,辽宁 大连 116029)
近年来,有限混合模型[1]得到了学者广泛关注,已知样本观测数据来自于一些不同的类,但是每个类的比例是缺失的,有限混合模型经常被用来对这类数据进行建模.EM算法[2]作为一种迭代算法,是处理有限混合模型的一个重要算法.本文用EM算法来求解带有删失数据[3-4]的混合线性回归问题,建立了混合线性回归模型[5]的参数估计程序并对国民生产总值数据集进行了分析.
(1)
(2)
(3)
(4)
和
(5)
1.E步骤
计算Q(θ|θ(t)),也就是计算组分包含的“后验”概率(以数据和θ(t)为条件),则对于i=1,2,…,n,j=1,2,…,m,
(6)
2.M步骤:
(1)对于参数λ,设
(7)
重复上面的步骤1、2直至收敛.
收集了2019年46个国家的人均国民生产总值和人均二氧化碳排放量的数据建立数据集,该数据集包括2019年人均国民生产总值(GNP)和2019年人均二氧化碳(CO2)排放量,主要讨论两者之间的关系.使用模型(1)来建立人均国民生产总值关于人均二氧化碳排放量的混合线性回归模型,对于模型(1)采用分两类的情况,使用第二节中的程序得到混合线性回归模型为:
(8)
图1展示了回归曲线及其99%的置信带.图1表明使用两个组分的混合回归来拟合数据集是合理的,而且对于GNP较低的国家来说,如果将来他们想增加GNP有(8)式中的两种方案可供选择.
Predictor图1 回归曲线
研究了带有删失数据的混合线性回归模型的参数估计问题,并且利用EM算法建立了混合线性回归模型的估计程序.收集2019年46个国家的人均国民生产总值和人均二氧化碳排放量的数据建立数据集,利用混合线性回归模型来分析这个数据集,得出使用两个组分的混合回归来拟合数据集是合理的,并且得到了回归方程,为低GNP国家增加GNP提供了两种选择方案.