随机效应-最大期望回归树模型的模拟研究与评价*

2019-11-12 12:24:16广东药科大学公共卫生学院卫生统计学教研室510310
中国卫生统计 2019年5期
关键词:残差线性观测

广东药科大学公共卫生学院卫生统计学教研室(510310)

李伟南 林畅琪 廖海宁 潘敏仪 郜艳晖 周舒冬△

【提 要】 目的 介绍随机效应-最大期望回归树模型(random effect-expectation maximization regression tree,RE-EM回归树)方法原理,比较RE-EM回归树与CART回归树在具有系统结构特征的纵向数据中的估计效果。方法 通过计算机生成不同参数设置的模拟数据,比较在不同随机效应及残差存在相关结构的纵向数据中两种树模型对特征空间的预测能力,并通过均方残差指标对拟合效果进行评价。结果 本研究所构建的RE-EM回归树在不同参数设置下的预测性能均优于CART回归树。结论 RE-EM回归树具有较强的预测性能,能准确预测特征空间且数据拟合效果好,相对于CART回归树具有明显的优势。

在医疗卫生领域,重复测量数据(repeated measures data)和纵向数据(longitudinal data)十分常见,此类型数据往往具有系统结构特征,同一观测对象的多次测量之间存在相关性[1-2],并且数据中的随机误差分布于不同的层次,因此在进行数据分析时不宜采用常规的统计方法,如一般线性模型。而决策树作为数据挖掘技术中的一种分类方法,为该问题提供了较好的解决方案。决策树的思想主要源于Breiman等人在1984年提出[3]的CART(classification and regression tree)算法,其根据因变量的类型可以分为回归树和分类树。30多年来,基于树的方法已经在统计学和数据挖掘的相关文献中得到广泛研究和应用,因其输出的结果简洁直观,具有较强的解释性,且核心算法较为成熟,目前已是数据挖掘领域中使用最广泛的算法之一[4]。但是对于具有系统结构特征的纵向数据,传统的树方法(如CART回归树)往往容易忽略其聚集性结构及残差间的相关性,从而导致模型构建的准确性较低,偏倚较大[5]。因此为了解决传统CART回归树拟合纵向数据的缺陷,从上世纪90年代开始,国外学者就将回归树在纵向数据中的应用进行了探索。例如学者Segal(1992)[6]和De′Ath(2002)[7]分别提出了应用于纵向数据的树方法,但该树模型要求研究对象在所有观测时期都使用同一组自变量,即各个时期因变量的估计值都存在于同个节点上,这虽然防止了在第一个观测时期后受到时依性变量的影响,但是容易导致信息的丢失,从而使预测性能较差。学者Galimberti和Montanari(2002)也创建了一种处理纵向数据结构的树模型[8],其基本思想是将随机效应与残差协方差矩阵独立于程序外进行估计,该模型允许时依性协变量的存在,同一研究对象的不同观测值可以出现在树的不同节点上,但由于其分割函数较为复杂,目前该算法尚未整合于软件中,因此其推广性较差。而学者Sela和Simonoff(2012)也提出了与该树方法类似的随机效应-最大期望回归树模型(random effect-expectation maximization regression tree,RE-EM),并将该模型算法整合于“REEMtree”R包中[9]。

RE-EM回归树是基于混合线性模型思想的树方法。目前在国外,RE-EM回归树在医学、教育学、生态学等领域都得到一定的应用,但尚未有研究就模型拟合的准确性对RE-EM回归树与CART回归树进行比较,因此在本研究中将对RE-EM回归树的原理进行探讨,并通过模拟研究进一步验证比较RE-EM回归树与CART回归树在具有系统结构特征的纵向数据中的估计效果。

原理与方法

1.混合线性模型结构

纵向数据是指对每个个体在不同时间进行观测而得到的数据,即在t=1,…,p的不同时期上观测同一组研究对象i=1,…,n,其相对应的一组因变量观测值为yi=(yi1,…,yip)′,每个研究对象其自变量向量为Xi=(xi1,…,xip)′,其中xit=(xit1,…,xitq),即Xi为一p×q维矩阵。在实际的纵向数据中,随机残差向量往往是不满足一般线性模型的独立性与方差齐性的条件,而混合线性模型则允许残差项具有更加灵活的结构,包括相关性和方差不齐性,另外,在某些研究中,分组因素或回归因子不是人为指定的,而是随机的,因而其参数估计值含有随机部分,并且随机部分可能存在某种相关关系,为了将这种随机部分分离出来以提高对总体预测的有效性,因此在模型中纳入一个设计矩阵Zi和相应未知的随机参数向量bi。模型的一般形式可表现为[10]:

yit=f(Xi)+Zibi+eit

(1)

2.回归树模型结构

回归树为一个if-then规则的集合[11],由决策树的根节点到叶节点的每一条路径构建一条规则,建立回归树的过程大致可以分为两步:

(1)将预测变量空间(即X1,X2,…,Xq的可能取值构成的集合)分割成J个互不重叠的区域R1,R2,…,Rj。

(2)对落入区域Rj的每个观测值作同样的预测,预测值等于Rj上训练集的因变量的简单算术均值。

因此回归树模型的形式如下:

(2)

3.随机效应-最大期望回归树模型结构

基于混合线性模型的优势及回归树模型的较强解释性,学者Sela和Simonoff将(1)式和(2)式进行结合,使混合线性模型推广到基于树的方法,解决了传统回归树对纵向数据估计的不足。RE-EM回归树是一种基于树结构估计f函数的方法[9],其中包含了随机效应bi,在这种方法中,节点可以基于任何自变量进行分割,使同一对象的不同观测可以放置在不同的节点中,RE-EM回归树可以对纵向数据或聚集性数据进行分析,并且可以在线性模型假设不成立的情况下进行建模。RE-EM回归树在进行预测的同时也考虑了时依性协变量的影响,能对因变量和自变量的潜在关系进行探索。

因为包含随机效应的回归树在进行估计时,使用的是最大期望算法(expectation maximization algorithm,EM),因此本研究构建的回归树称为随机效应-最大期望回归树或RE-EM回归树。

以下为RE-EM回归树的估计过程:

(1)将待估计的随机效应bi初始化为零。

(2)通过以下迭代,直到估计的随机效应bi收敛(基于似然值的变化或受限似然函数小于某个容差值):

步骤①中回归树的拟合可以使用CART回归树的算法,通过树的生长和修剪准则来实现。步骤②中混合线性模型的估计方法可以使用最大似然估计或受限最大似然估计。

模拟试验

1.模拟方法及参数设置

以预测棒球运动员的薪水为例[12],根据运动员效力于职业棒球联盟的年份(Years),以及一年所击出的安打数(Hits),分别以CART回归树和RE-EM回归树对运动员的薪水进行预测(薪水Salary以十万美元为单位)。假定回归树模型如图1所示,树的根节点从年份(Years)开始分裂,表示当棒球运动员效力年份小于4.5年,那么年薪平均值为5.11(单位:十万美元)。而当效力年份大于4.5年,一年的安打数小于117.5次,则年薪平均值为10。当效力年份大于4.5年且一年安打数大于等于117.5次,那么年薪平均值为12.74。该树包含了三个特征空间或三个终端节点。

图1 假定回归树模型

(1)回归树模拟数据集的生成

假定模拟人群共有3000人,每个研究对象共有12条观测记录,即基线(0年)到随访第11年,根据if-then规则生成模拟数据集:

特征空间1:ifYears<4.5thenSalary=μ1+Zibi+eit

特征空间2:ifYears>4.5andHits<117.5thenSalary=μ2+Zibi+eit特征空间3:ifYears>4.5andHits≥117.5thenSalary=μ3+Zibi+eit

模拟数据共有36000条观测,数据结构如表1所示:

据报道,我国护理科研在心理护理、人文护理等的研究远远落后于发达国家,我国在对照顾者的护理方面与国外相比差距甚远[4]。因此,重视患者照顾者的早期心理状况,尽早介入照顾者的心理干预,能有效减轻照顾者的身心压力,有助于促进患者的康复。

表1 模拟研究数据结构

(2)模拟研究参数设置

表2 模拟研究数据结构参数设置情况

当不存在残差相关矩阵时,相关系数ρ=0。

2.评价指标

(1)预测特征空间

对于每种拟合情况,考察预测特征空间与假定特征空间的差异,判断模型预测性能。

(2)均方残差(mean-square error,MSE)

采用MSE作为模型的评价指标,评价CART回归树和RE-EM回归树对数据拟合的情况。

结 果

(1)预测特征空间

表3显示,当模拟数据集中无随机效应结构及无残差相关结构时,传统的CART回归树与RE-EM回归树的预测效果一致,而当存在随机效应结构时,CART回归树的预测值与假定的回归树(图1)相差较大,特别是当数据结构中包含截距项及年份两个随机效应时,传统的CART回归树不能准确预测出特征空间,表中“—”表示模型无法预测出第三个特征空间,最终拟合出树的结构只有两个终端节点,以第5种参数设置为例,两种树结构如图2和图3所示。

(2)均方误差

表3显示,当模拟数据集中无随机效应结构而观测间存在相关时,虽然CART回归树与RE-EM回归树两者间的预测特征空间与假定的模型特征空间相近,但是两者间MSE相差较大。而当模拟数据中存在随机效应结构时,两种模型间差异进一步加大,RE-EM回归树对数据的拟合结果明显优于CART树。

表3 CART回归树与RE-EM回归树对模拟数据的拟合结果

图2 CART回归树

图3 RE-EM回归树

讨 论

本文通过模拟研究从模型拟合准确性和偏倚两方面对RE-EM回归树和CART回归树进行了比较,结果显示,RE-EM回归树相较于CART回归树,在处理具有随机效应及残差间存在相关关系的纵向数据时更能反映数据的真实关系,建模准确性高。另外从模拟研究中可以发现,在不同的数据结构设定下,RE-EM回归树的MSE值始终较低,因此RE-EM回归树相较于CART回归树对于数据的拟合效果更具优势。因此总的来看,RE-EM回归树在建模的准确性及灵活性上均明显优于CART回归树。

RE-EM回归树是一种将CART回归树与混合线性模型进行结合的一种方法,其具有两者的优点[12]:(1)解释性强,RE-EM回归树在解释性方面甚至比线性模型更加方便;(2)与传统的统计方法相比,回归树更接近人的决策模式,其输出结果简洁直观,非统计专业人士也可以轻松解释(尤其当树规模较小时);(3)树方法可以直接处理定性的预测变量而不需要创建哑变量;(4)在处理分析非线性数据时,回归树是一种较为理想的方法;(5)允许资料具有某种相关性以及协方差矩阵的多样性;(6)允许研究中的处理因素具有随机性质。

目前在国内的医学研究中,尚未见RE-EM回归树的相关研究报道。而本研究验证了RE-EM回归树对于拟合纵向数据的适用性,因此在对实际资料进行分析时我们可以同时采用RE-EM回归树与混合线性模型以提高分析效率。本研究的不足在于构建的RE-EM回归树只适用于连续型因变量,而对于离散型因变量还需进一步探讨,另外对于RE-EM回归树能否进一步发展为随机森林方法,还需后续更多的研究。

随着R软件在统计学中的推广和应用,基于R软件开发的RE-EM回归树开始受到学者们的关注,因此,本文通过模拟研究对RE-EM回归树的原理方法、数据结构、软件实现、案例分析和模型评价进行探讨,并希望该方法能为医学纵向数据的分析提供一定的参考。

猜你喜欢
残差线性观测
观测到恒星死亡瞬间
军事文摘(2023年18期)2023-11-03 09:45:42
渐近线性Klein-Gordon-Maxwell系统正解的存在性
基于双向GRU与残差拟合的车辆跟驰建模
线性回归方程的求解与应用
基于残差学习的自适应无人机目标跟踪算法
基于递归残差网络的图像超分辨率重建
自动化学报(2019年6期)2019-07-23 01:18:32
二阶线性微分方程的解法
天测与测地VLBI 测地站周围地形观测遮掩的讨论
可观测宇宙
太空探索(2016年7期)2016-07-10 12:10:15
高分辨率对地观测系统
太空探索(2015年8期)2015-07-18 11:04:44