陈 霞张 桥陈永杰李慧婷张秋菊刘美娜△
回归校准和模拟外推对测量误差的校正效果研究*
陈 霞1张 桥2陈永杰1李慧婷1张秋菊1刘美娜1△
目的探讨回归校准法(RC)和模拟外推法(SIMEX)对logistic回归中测量误差的校正效果。方法通过SAS软件产生有测量误差的模拟数据,用RC和SIMEX对测量误差进行校正,对比设定的真实β值和校正后的β*值之间的差别,以评价校正效果。结果当X可精确测量时,在设定的条件下,RC1的校正效果较好;P-SIMEX仅当很小时校正效果较好。当X不可精确测量时,随着测量误差的增大,E-SIMEX的校正效果降低,而RC2的校正效果相对较稳定。结论无论X是否可测,在经典测量误差模型前提下,RC对logistic回归模型中测量误差的校正效果优于SIMEX,建议应用RC校正测量误差。
测量误差 回归校准法 模拟外推法 logistic回归回归稀释
统计分析过程中建立线性回归或非线性回归模型时,都假定自变量和应变量无测量误差,所得数据是变量的真实值。但在科研领域中,通过某种方式或者途径所获得的变量值未必是此变量的真实值,尤其是环境流行病学、膳食问卷调查等观察性研究中,测量误差是广泛存在的问题[1,2]。数据分析时若忽略测量误差的影响,会导致参数估计有偏,统计推断不准确,因此需要对测量误差进行校正[3]。关于测量误差校正方法的研究,最经典的是由Rosner提出的回归校准法[4]和由Cook提出的模拟外推法[5],可通过SAS、Stata等统计软件实现分析过程。本文通过模拟实验,探讨不同条件下回归校准法和模拟外推法对logistic回归中自变量测量误差的校正效果。
1.测量误差
测量误差是指科研过程中由于信息收集、固有的生物学变异和一些变量的主观性等造成的误差[6]。传统回归模型,如式(1):
此模型中,变量Yi,Xi是可测的,εi是随机误差,β是待估参数,fXi,()β是关于X的已知函数。通常可根据回归函数fXi,()β的不同形式,估计出相应的参数β。但在实际建模实践时,自变量可能不可测,或者其测量带有不可忽略的测量误差。在一些观察性研究中,如膳食频率调查(FFQ),自变量X为真实值,是被调查者过去一年中的日平均膳食摄入量,通过问卷调查获取的值为真实值X的估计值W,W和X之间的差别就是测量误差[7]。
2.回归校准(regression calibration,RC)
回归校准的基本原理[8]是:先建立自变量真实值X关于观测值W和协变量Z的回归函数,以此函数代替真实值X,再进行常规的回归分析。RC的前提条件是W和X为线性关系,X关于W和Z的回归函数叫做回归校准函数。根据已知数据的特点,有RC1和RC2两种方法建立回归校准函数。
RC1:当X可测,且测量值W与真实值X满足非差分测量误差模型[9](non-differentialmeasurement errormodel)W=γ0+γX+U,其中且U与X、Y相互独立。可从主数据集中按一定比例随机抽取一个同时有W和X值的数据集,称效度数据集(validation data)。其较准过程分三步:首先利用效度数据集,建立X与W的线性模型X=λ0+λ1W,估算出系数然后根据校准模型利用主数据集,估算出每个个体校准后的XRC1;最后建立Y与XRC1的logistic回归模型Pr(Y=1|X)=exp(β0+β1XRC1),估算出系数即为校准后的回归系数。此种回归校准简称RC1。
3.模拟外推(simulation extrapolation,SIMEX)
模拟外推是一种基于模拟的参数估计方法,其基本原理是:对有测量误差的自变量W额外加一个逐级增大的拟测量误差,基于拟数据集进行参数估计,再拟合这些参数的变化规律,最后外推出正确的参数值。此方法前提条件是W与真实值X满足经典测量误差模型W=X+U,其中且U与X、Y相互独立。根据是否已知,SIMEX可分为参数型和经验型[10]。参数型SIMEX(P-SIMEX)的基本步骤如下:
模拟:在自变量观测值W原有测量误差U的基础上,加上逐级增大的测量误差,增加的幅度为θ,形成一个新模拟的其中测量误差U的大小用其方差度量,即的测量误差为
拟估计:设θ为误差增加幅度,b为拟估计模拟的次数,定义
1.模拟设计
真实数据集参数设置:样本量N=1000,自变量X~N(0,1),协变量Z~N(0,1),通过logistic回归模型Pr(Y=1|X,Z)=exp(β0+βxX+βzZ),产生因变量Y。β0=-2.5,βX=(0.5,1),βZ=1,分别对应有90%、85%的Y=0。
非差分测量误差模型参数设置:γ0=0,γ=(0.5,根据模型W=γ0+γX+u产生自变量测量值W。从真实数据集中简单随机抽取100个观测值作为效度数据集。此时应用的校正方法为RC1、P-SIMEX(仅γ0=0,γ=1,且假定已知)。
为确保模拟结果的稳定性,对上述随机变量的模拟均采用蒙特卡洛方法[11],模拟次数为100次,模拟结果取均值。
2.评价指标
评价校正效果的指标为校正后的回归系数β*与设定真实值β真之差的绝对值和β*的标准差。β*与β真之差的绝对值越小,校正效果越好;β*的标准差越小,校正效果越稳定。本文拟规定:0.05]时,校正效果理想;时,校正效果较好。
1.非差分测量误差模型校正效果
不同测量误差条件下RC1校正效果如表1、图1所示。将含测量误差的测量值W作为自变量纳入模型时,回归系数βnaive都小于β真;随着测量误差的增大,βnaive越偏离β真。当非差分测量误差模型中γ=0.5时,无论测量误差的大小,经RC1校正的虽然较βnaive好,但校正效果都不够理想;当γ=0.75时,只有测量误差较小1),RC1才能达到理想的校正效果。仅当W与X的关系满足经典测量误差模型(即γ=1),RC1都能达到理想的校正效果。
基于P-SIMEX的前提条件,仅当γ0=0,γ=1,且假定已知时,应用此种方法进行校正。当非差分测量误差模型中γ=1时,RC1和P-SIMEX如表1、图2所示。仅当时,P-SIMEX能达到较好的校正效果。随着测量误差的增大,P-SIMEX校正的虽然较βnaive大,但校正效果都不好。在相同条件下,随着的增大,经RC1校正的的标准误逐渐增大,而经P-SIMEX校正的的标准误逐渐减小。
表1 RC1和P-SIMEX对测量误差的校正效果
图1 非差分测量误差条件下RC1的校正效果
图2 RC1(γ=1)和P-SIMEX的校正效果
2.经典测量误差模型校正效果
不同测量误差条件下RC2和E-SIMEX的校正效果如表2、图3所示。无论测量误差多大,经RC2校正后校正效果均理想。仅当时,E-SIMEX能达到较好的校正效果。在相同条件下,随着的增大,经RC2校正的的标准误逐渐增大,而经E-SIMEX校正的的标准误逐渐减小。
表2 RC2和E-SIMEX对测量误差的校正效果
图3 经典测量误差条件下RC2及E-SIMEX的校正效果
测量误差在环境暴露和营养膳食等流行病学调查中是普遍存在的,但在大多数研究数据处理分析时,往往被忽视,对其造成的影响很少进行调整或纠正。直接用含测量误差的数据进行回归分析时会产生一定的偏倚,导致参数估计有偏,或者推断不准确,其效应称为回归稀释[12]。根据测量误差的来源,可产生不同的稀释效应[13]:自变量X的测量误差会造成回归系数的减小;而应变量Y的测量误差不影响回归系数,但会造成其标准误增大,使估计的精度下降。本文通过模拟试验比较回归校准法与模拟外推法两种方法对logistic回归中自变量测量误差的校正效果结果显示,当自变量有测量误差时,未校正的βnaive都小于设定的β真,符合回归稀释的效应。
根据自变量X是否可精确测量,测量误差的校正可分为RC1、P-SIMEX及RC2、E-SIMEX两大类。当X可精确测量时,在设定的条件下,RC1的校正效果较好,P-SIMEX仅当很小时校正效果较好。当X不可精确测量时,随着测量误差的增大,E-SIMEX的校正效果降低,而RC2的校正效果相对较稳定。无论X是否可测,在经典测量误差模型前提下,RC对logistic回归模型中测量误差的校正效果优于SIMEX。但SIMEX也有自身的优势,其不仅可获得校正后的回归系数,还可通过外推图示直观地体现出测量误差对回归系数的效应。与RC相比,SIMEX更适用于对非线性回归模型中的测量误差进行校正[8]。
基于本文模拟结果,对logistic回归模型中测量误差进行校正时,在经典测量误差模型前提下,建议应用回归校正法。本研究仅对模型中单个自变量(正态分布)含加法测量误差的情况进行讨论。但在实际应用中,模型中含测量误差自变量的个数、自变量的分布以及测量误差模型的结构更加复杂,回归校准与模拟外推的校正效果如何,还需进一步研究。
1.Pollack AZ,Perkins NJ,Mum ford SL,etal.Correlated biomarkermeasurement error:an important threat to inference in environmental epidem iology.American journal of epidem iology,2013,177(1):84-92.
2.Day NE,Wong MY,Bingham S,et al.Correlated measurement error implications for nutritional epidem iology.Int J Epidem iol,2004;33(6):1373-1381.
3.张桥,张秋菊,陈霞,等.回归校准法对线性回归中信息偏倚校正的模拟研究.中国卫生统计,2013,30(3):327-329.
4.Rosner B,Spiegelman D,W illettWC.Correction of logistic regression relative risk estimates and confidence intervals for measurement error:the case ofmultiple covariatesmeasured w ith error.American Journal of Epidem iology,1990,132(4):734-745.
5.Cook JR,Stefanski LA.Simulation-extrapolation estimation in parametric measurement errormodels.Journal of the American Statistical Association,1994,89(428):1314-1328.
6.Buonaccorsi JP.Measurement error:models,methods and applications. Chapman and Hall/CRC,2010.
7.Jaceldo-Siegl K,Knutsen SF,Sabate′J,et al.Validation of nutrient intake using an FFQ and repeated 24 h recalls in black and white subjects of the Adventist Health Study-2(AHS-2).Public Health Nutr,2010,13(6):812-819.
8.Carroll RJ,Ruppert D,Stefanski LA,etal.Measurementerror in nonlinearmodels:amodern perspective.Second Edition,Chapman and Hall/CRC,2006.
9.Armstrong BG.Effect ofmeasurement error on epidem iological studies of environmental and occupational exposures.Occupational and environmentalmedicine,1998,55(10):651-656.
10.Devanarayan V,Stefanski LA.Empirical simulation extrapolation for measurement error models with replicate measurements.Statistics&Probability Letters,2002,59(3):219-225.
11.Rubinstein RY.Simulation and the Monte Carlo method.Wiley-interscience,2009.
12.MacMahon S,Peto R,Cutler J,et al.Blood pressure,stroke,and coronary heart disease.Part1,prolonged differences in blood pressure:prospective observational studies corrected for the regression dilution bias. Lancet,1990,335:765-774.
13.Hutcheon JA,Chiolero A,Hanley JA.Random measurement error and regression dilution bias.BMJ,2010,340(7761):1402-1406.
(责任编辑:丁海龙)
The Correction Effect Analysis of Regression Calibration and Simulation Extrapolation for M easurement Error
Chen Xia,Zhang Qiao,Chen Yongjie,et al(BiostatisticsDepartment,HarbinMedicalUniversity(150081),Harbin)
ObjectiveTo estimate the correction effect of regression calibration(RC)and simulation extrapolation(SIMEX)formeasurement error in logistic regression model.MethodsWe simulated datasets including given measurement error by SAS software,and applied RC and SIMEX to correctmeasurementerror.Then evaluated the correction effectby comparing the difference between trueβvalue and correctedβ*value.ResultsIfXcould be accuratelymeasured,RC1 could achieve preferable correction effect under the given,while P-SIMEX could only do wellwhen the valuewere ratherm inimal.IfXwas unobservable,the effect of E-SIMEX appeared worse w ith the increase ofmeasurement error,while RC2 performed relatively stable w ith differentvalues.ConclusionWhether or notXcould be accurately measured,RC worked better than SIMEX in the classicalmeasurement errormodel condition.We recommend RC on the basis of our simulation results.
Measurementerror;Regression calibration;Simulation extrapolation;Logistic regression;Regression dilution
国家科技支撑计划(2011BAIO9B02)
1.哈尔滨医科大学公共卫生学院卫生统计学教研室(150081)
2.哈尔滨医科大学医务处
△通信作者:刘美娜,E-mail:liumeina369@163.com