多项膨胀效应模型对美国城市4~9岁儿童哮喘危险因素的分析

2021-02-01 08:28:30顾丹彤林燧恒
复旦学报(医学版) 2021年1期
关键词:泊松气喘天数

顾丹彤 林燧恒

(复旦大学公共卫生学院生物统计学教研室 上海 200032)

哮喘是最为常见的儿童慢性呼吸系统疾病,其症状主要为喘息、胸闷、咳嗽等。哮喘发病率逐年升高,已经成为全球最大的公共卫生健康问题之一[1]。20年来,在美国城市儿童哮喘的防治方面并无突破,目前仍无可以治愈哮喘的治疗方案。更好地了解哮喘的危险因素,并及早提供预防方案,已成为控制儿童哮喘的当务之急[2]。

为了调查与哮喘症状相关的潜在危险因素,美国城市合作哮喘研究(National Cooperative Inner City Asthma Study,NCICAS)团队在1993年对诊断为哮喘且居住于市中心贫困地区的1 376名儿童进行了9个月的随访,并于基线、3、6和9个月重复测量了4次,研究的主要结局变量之一是患儿在过去2周内气喘的天数,取值范围是0~14的整数。NCICAS是第一个大型的美国城市儿童哮喘病研究,之后的针对美国城市哮喘儿童的研究多是基于此研究结果来设计干预或集中探讨某方面的因素,所包含的危险因素较这个原始数据反而相对较少。由于NCICAS收集到的纵向数据在0值和14值处出现大量堆积,用传统的广义线性模型进行建模可能会导致估计偏倚,并影响对危险因素的估计。

事件发生数中含有大量的零值或其他某一数值时,由于计数资料中某个值过多,且取相同的值时反映的情况不同,常常会导致计数资料的变异度较大,这类现象被称为计数资料的膨胀[3]。这种离散数据的特殊性使其无法用一般的泊松、二项或负二项分布等计数模型来进行预测。多项膨胀模型能解释计数资料中某些过多的值,弥补了普通模型分析膨胀结构数据时的缺陷[4],使得估计结果更加无偏和可靠,并已经用于解决一些传统模型无法回答的实际问题。

NCICAS收集的美国城市哮喘儿童发病因素变量最多,数据最全面。本研究旨在利用NCICAS数据以发现更全面的儿童哮喘危险因素,首次通过建立更适合反应变量的多项膨胀效应模型,以更好地吻合数据分布、减少偏倚,并在此基础上进一步采用单因素及多因素分析挖掘美国城市儿童哮喘发病与危险因素之间的关系,为儿童哮喘的预防提供理论依据。

资料和方法

数据获取及研究对象本研究的数据来源于美国NCICAS,我们通过美国公开数据政策M-13-13获得NCICAS项目主持人的授权并使用这批数据。NCICAS是一项对美国城市儿童哮喘发病率进行的两阶段研究。该项目收集了1993—1997年关于哮喘症状及有关因素的随访数据,并针对基线收集的数据进行分析[5]。研究对象为美国国家城市合作哮喘研究中被观测的1 376名4~9岁的儿童,由美国北部、中部和东北部气候条件相似的大城市的8个哮喘研究中心招募。

研究变量该项目中每个家庭在基线检查后再次接受问卷调查,并要求估计过去2周有气喘症状的天数和前3个月计划外就诊或住院的次数。基线调查主要包括被监测儿童的年龄、性别、家庭住址、开始监测时的季节等。

本研究探讨的儿童哮喘影响因素主要包括儿童自身情况、父母或照料者情况及环境因素三方面。其中患儿年龄(age)、父母心理量表(Brief Symptom Inventory,BSI)得 分 、儿 童 行 为 量 表(Child Behavior Checklist,CBCL)得分、服药次数(medicine)、就医次数(doctor)、社会支持(support)得分、家庭环境(environment)得分为连续性变量;患儿种族(race)分为3类,黑人、西班牙人、其他种族分别赋值为1、2、3;患儿性别分为2类,男性赋值为0,女性赋值为 1;患儿是否过敏(atopic)、患儿出生时是否住进重症监护室(ICU)、患儿哮喘时是否难以得到照料(hard_1)、是否难以得到后续看护(hard_2)、家长是否关心患儿治疗的不良反应(sideeffect)、家中是否吸烟(smoke)、是否在冬天进行观测(winter)均为分类变量,是赋值为1,否赋值为0。

统计学方法

描述性分析 我们将患儿按家长汇报的气喘天数分为0天,1~13天和14天3类。分析所研究变量的情况,连续变量描述其均数及标准差情况,分类变量描述其人数及占比情况,描述其分布后检验数据正态及方差齐性,对满足正态性及方差齐性的数据进行χ2检验,对不满足条件的数据进行Kruskal-Wallison检验。

模型拟合与比较传统的用于拟合计数数据最常见的模型是泊松回归(Poisson regression,POI)模型,泊松回归模型要求数据的期望均数等于期望方差。当均数与方差不等时,可以考虑使用负二项回归(negative binomial regression,NB)模型进行拟合。针对本文使用的零值较多且符合泊松分布的过离散(方差明显大于均值)复合计数资料,采用零膨胀及多项膨胀泊松分布模型进行拟合。零膨胀泊松模型(zero-inflated Poisson regression,ZIP)的基本方法是将数据集看成全0数据集A和一个服从泊松或负二项分布的数据集B组成的混合数据集,对混合计数数据建立混合概率分布,用一些特征变量对个体是否真的属于A用Logistic模型进行预测,然后将真实属于A中的个体排除后,构建泊松或负二项分布的计数模型;Logistic部分主要回答协变量影响事件发生与否的问题,泊松或负二项模型部分主要回答协变量影响事件发生次数多寡的问题。多项膨胀泊松模型(multi-inflated Poisson regression,ZKIP)则是在零膨胀模型的基础上再多加一个全n数据集C[6]。泊松、负二项、零膨胀泊松和多项膨胀模型的概率密度函数及其参数见表1。

表1 不同模型概率密度及其参数Tab 1 Probability density and parameters of different models

模型的拟合及参数估计使用统计软件SAS中的过程步PROC NLMIXED完成,相应的代码如下所示。

/*zkip*/

procnlmixed data=data.time0 method=gauss qtol=0.0005 TECH=nmsimp;

parameters a0=-..9 a14=-2.3 b0=1.2;

prob0=exp(a0+u1)/(1+exp(a0)+exp(a14));

prob14 = exp (a14+u2)/(1+exp (a0) +exp(a14));

mu=exp(b0);

if whzchst=0 then ll=log(prob0+(1-prob0-prob14)*exp(-mu));

else if whzchst=14 then ll=log(prob14+(1-prob0-prob14)*exp(-mu)*(mu**14)/gamma(15));

else ll=log((1-prob0-prob14))-mu+whzchst*log(mu)-lgamma(whzchst+1);

model whzchst~general(ll);

title3"Zero-14-inflated Poisson Effects Model";

run;

单因素分析 我们向ZKIP模型中的3个部分分别设置连接函数并引入协变量,在零膨胀部分,我们引入额外0概率和期望泊松计数与线性预测指标间的连接函数logit(p i);在14膨胀部分,引入额外14概率和期望泊松计数与线性预测指标间的连接函数logit(qi);在泊松回归部分,引入期望泊松计数与线性预测指标间的连接函数logit(θi)。通过在这些连接函数中引入协变量来构建含有协变量的多项膨胀泊松模型:

其中W 1是零膨胀部分的一个1376×c的协变量矩阵,W 2是14膨胀部分的一个1376×c的协变量矩阵,该矩阵除截距项共有c-1个协变量;X是负二项部分的一个1376×c的协变量矩阵,该矩阵除截距项共有c-1个协变量;γ1是零膨胀部分协变量的c×1的回归系数向量,该矩阵除截距项共有c-1个协变量;γ2是14膨胀部分协变量的c×1的回归系数向量,β是负二项部分协变量的c×1的回归系数向量。在单因素分析中W1、W2、X中同时纳入相同的变量。

多因素分析 通过在W1、W2、X中同时纳入变量建立模型,并比较各个模型的拟合优度参数AIC、AICC、BIC,选择最优的模型。首先对泊松回归部分加入一系列协变量进行建模,找出泊松部分的最优模型后,在0和14膨胀部分分别加入协变量建模。建立最优模型后,对该模型进行多因素分析,旨在发现实际情况下,多个影响因素并存时,研究变量对发病指标的影响大小,并找出针对不同人群相应的有影响的变量。

统计软件 本研究采用SAS 9.4软件进行分析,所有统计均采用双侧检验,P<0.05为差异有统计学意义。

结 果

研究对象基本特征我们对1 376名儿童进行基线分析。共有男性儿童508名(36.9%),平均年龄6.24岁,其中328名(64.6%)呈现过敏阳性,152名(29.9%)在冬季监测;共有女性儿童868名(63.1%),平均年龄6.15岁,其中589名(67.9%)呈现过敏阳性,257名(29.6%)在冬季监测。汇报患儿气喘天数为0天、1~13天和14天的3个人群中,儿童行为量表得分、服药次数、就医次数、患儿哮喘时是否难以得到照料、是否难以得到后续看护等方面差异均有统计学意义(表2)。

表2 1 376名哮喘儿童的基本特征Tab 2 Basic characteristics of 1 376 children with asthma[ or n(%)]

表2 1 376名哮喘儿童的基本特征Tab 2 Basic characteristics of 1 376 children with asthma[ or n(%)]

a:χ2 or Kruskal-Wallis test.BSI:Brief Symptom Inventory scores;CBCL:Child Behavior Checklist scores;ICU:Lived in ICU at birth;Medicine:Number of medications;Doctor:Number of doctor’s visit;Hard_1:Hard to get care for asthma;Hard_2:Difficult to get followup care;Side-effect:Concern for treatment side effects;Support:Social support score;Smoke:Caretaker smokes;Environment:Family environment score;Winter:Observation was done in winter.

Characteristics P a Days of wheeze due to Asthma 0(n=451)6.2±1.8 1-13(n=852)6.1±1.7 14(n=73)6.2±1.70.933 0.899 0.106 0.301 0.100<0.001 0.456<0.001 0.007 0.007<0.001 0.156 0.180 0.811 0.936 0.082 Age(y)Race(%)Black Spanish Others Atopic(%)Gender(male%)BSI CBCL ICU(yes%)Medicine Doctor Hard_1(yes%)Hard_2(yes%)Side-effect(yes%)Support Smoke(yes%)Environment Winter(yes%)331(73.4)89(19.7)31(6.9)347(76.9)176(39.0)55.0±11.3 55.6(11.7)104(23.1)1.7±1.2 1.2±0.4 202(44.8)192(42.6)271(74.7)7.2±2.2 252(57.0)5.4±1.5 163(36.1)628(73.7)169(19.8)55(6.5)691(81.1)310(36.4)55.9±11.3 57.4±11.5 212(24.9)2.1±1.3 1.1±0.3 460(54.0)488(57.3)587(79.4)7.1±2.3 495(58.9)5.5±1.4 268(30.3)57(78.1)11(15.1)5(6.8)54(74.0)22(30.1)58.0±11.2 61.9(9.61)22(30.1)2.0±1.4 1.2±0.4 41(56.2)50(68.5)49(81.7)6.7±2.4 43(58.9)5.4±1.4 21(28.8)

对基线问卷的结局变量(即孩子在2周内的气喘天数)进行分析,据家长汇报情况,气喘的平均次数为2.86,方差为12.67。我们进一步研究发现汇报为0次和14次的人群相对于计数分布的其他次数人群呈现出汇报的高峰,以基线数据为例,0次和14次的占比分别为32.8%和5.3%。

模型拟合比较本研究所使用的数据明显具有过离散的特征,故而在传统模型拟合的基础上,我们考虑使用零膨胀泊松和多项膨胀泊松模型与传统的泊松及负二项模型进行对比,择优选择最佳的模型进行拟合,拟合结果见表3。综合考虑模型参数AIC、BIC、AICC均显示多项膨胀泊松模型拟合效果最佳。

表3 不同模型的拟合优度比较Tab 3 Comparison of goodness in fit in different models

将以上各个模型拟合后的预测频数分布与原始数据的频数分布相比较(图1),明显可以看出,多项膨胀泊松模型的拟合效果最好。

图1 各模型拟合分布比较Fig 1 Comparison of fitted distributions of various models

多项膨胀泊松模型的单因素分析在0膨胀部分,对于额外0的对数发生比,就医次数具有显著的正效应,儿童行为量表得分和服药次数具有显著的负效应,患儿为女性、在冬天观测的患儿家长更不容易将气喘天数汇报为0次。在14膨胀部分,对于额外14的对数发生比,患儿为女性、哮喘时难以得到治疗、难以得到后续照料、出生时住进重症监护室、在冬天观测的患儿家长更不容易将气喘天数汇报为14天。在泊松部分,患儿的年龄、服药次数具有显著的正效应,女性、过敏、就医次数多、不关心治疗的不良反应、在冬天观测的患儿家长倾向于汇报更少的气喘天数(表4)。

多项膨胀泊松模型的多因素分析我们先对泊松模型加入协变量进行建模,以找到能最好解释泊松部分的协变量,建模过程见表5,通过后退法逐步剔除上一个模型中无显著统计学意义的变量,并不断比较模型的拟合优度参数AIC、AICC、BIC(3个指标均为越小越好),我们最终选择model 8进行泊松部分的建模。

在选取拟合效果最好的泊松模型后,我们在模型的泊松部分固定使用模型8的变量,即在泊松部分固定纳入协变量年龄、服药次数、家长是否关心治疗的不良反应、是否在冬天观测。然后开始对0和14膨胀部分使用后退法加入协变量建模,建模过程见表6。进行多次建模尝试后,通过比较模型的评价参数AIC、AICC、BIC,我们最终选择model 7进行最终的建模,最终在模型的0膨胀部分纳入变量性别、过敏、服药次数、就医次数、是否在冬天观测、儿童行为量表得分,在14膨胀部分纳入变量性别、种族、哮喘时难以得到治疗、是否难以获得后续照料、儿童行为量表得分。

表4 多项膨胀泊松模型中患儿气喘天数的单因素分析Tab 4 Single-factor analysisof the number of days child had wheeze in ZKIPmodel

表5 泊松部分构建过程——变量及评价参数Tab 5 Model comparison of poisson part:variables and goodnessof fit

表6 多项膨胀泊松模型构建过程——变量及评价参数Tab 6 Model comparison of multi-inflated parts:variables and goodness of fit

对最优模型进行多因素分析,我们发现在泊松回归部分,控制其他协变量后:年龄每增长1岁,家长汇报患儿气喘的的期望天数增加4%;服药次数每增加1次,家长汇报患儿气喘的期望天数增加7%;与不关心治疗不良反应的家长相比,关心治疗不良反应的家长汇报气喘的期望天数增加12%;与其他季节相比,在冬天进行问卷调查的患儿家长汇报的气喘期望天数减少11%,差异均有统计学意义;对0处的膨胀研究显示,服药次数越少、就医次数越多、儿童行为量表得分越低,对儿童家长汇报其气喘天数为0具有正效应;儿童行为量表得分越高,对儿童家长汇报其气喘天数为14具有正效应,具体分析结果见表7。

讨 论

本文使用的美国哮喘儿童哮喘病发病数据具有零膨胀数据的特征,在对其进行描述性分析后,我们发现其还具有在某点处的聚集性,符合0_K膨胀分布的特征,这个数据特征是由问卷收集过程中的回忆偏倚和选择偏倚导致的,使用传统的广义线性模型进行分析可能难以得出准确的参数估计,故而我们考虑使用多项膨胀泊松模型分析数据。为了进一步研究对美国家长汇报患儿气喘天数有影响的变量,我们在多项膨胀模型中引入协变量,并构建模型,最终发现年龄、服药次数、家长关心治疗的不良反应是家长汇报患儿气喘天数增多的危险因素;对0处的膨胀研究显示,服药次数越少、就医次数越多、儿童行为表现越差,对儿童家长汇报患儿气喘天数为0具有正效应。儿童行为表现越好,对儿童家长汇报患儿气喘天数为14天具有正效应。

表7 多项膨胀泊松模型中患儿气喘天数的多因素分析Tab 7 Multi-factor analysis of thenumber of days child had wheeze in ZKIPmodel

本研究的模型发现了美国哮喘儿童的心理量表得分越高对家长汇报的气喘14膨胀的正效应,一组临床随机对照的干预研究显示哮喘组的儿童行为量表得分显著高于健康组[7],支气管哮喘患儿存在一定的心理损伤,同时哮喘儿童更易出现焦虑、抑郁、退缩等不良心理现象,提示我们在对哮喘儿童进行管理时需要预防心理方面的疾病。目前的哮喘治疗主要采用吸入糖皮质激素,可能会导致患者发生咽部不适、咽炎、口腔念珠菌病等不良反应[8],孩子的服药次数越多、家长对治疗的不良反应越关心,家长越可能存在焦虑与抑郁现象。有研究显示患儿家长的焦虑和抑郁水平检出率显著高于正常群体[9],这可能可以解释在泊松部分期望天数的增加。

模型显示在冬天进行问卷调查的情形下,家长报告患儿气喘的期望天数减少11%,极有可能与冬天过敏源的相应减少有关。以往研究中也明确提出了过敏对哮喘的影响,过敏史一般包括药物过敏及食物过敏,对哮喘儿童而言,这两种过敏往往同时存在,而食物过敏更为常见[10]。食物过敏引发的儿童哮喘约占总发病人数的6%~8%,它能显著增加儿童哮喘的发病率,且呈现出发病率随过敏食物增多而增高的特点[11],对鸡蛋(OR=2.0,P<0.01)和坚果的食物过敏(OR=2.0,P=0.02)是儿童哮喘的独立危险因素;更有研究结果报告食物过敏的儿童中有45.6%为哮喘病患者[12]。大量研究发现,孕妇及儿童对目前广泛使用的对乙酰氨基酚有过敏反应,且其使用剂量与致哮喘风险呈现出剂量反应关系。研究发现某些存在抗氧化基因缺陷的儿童在使用对乙酰氨基酚后会出现嗜酸粒细胞炎症,且其患哮喘的风险显著增加[13]。过敏阳性的儿童出现哮喘的可能性更高,其父母也更易发现其有气喘的情况,这与本文的研究结果一致。

哮喘儿童的年龄越大,治疗时间越长,被诊断为难治性哮喘的可能性越大[14]。难治性哮喘是指结合使用长效β2激动剂及吸入中高剂量糖皮质激素和两种或更多种的控制药物进行规范治疗至少3~6个月后仍不能得到良好控制的哮喘。若儿童在急性哮喘发作期未得到有效治疗,极易转化为慢性哮喘,病情难以得到缓解,且随年龄增大愈发成为顽疾。另外有研究指出,母婴保护是哮喘的重要保护路径[15],Meta分析指出母乳喂养(OR=0.508,95%CI:0.396~0.653)是儿童哮喘的保护因素[13],其主要原因可能是母乳中包含大量消化寡糖类物质、细胞因子、IgA及长链脂肪酸,可以有效减少婴儿感染并降低特异性反映发生概率[16]。本研究发现儿童年龄越大,父母汇报其气喘的期望天数显著增加,这可能与大龄儿童出现慢性哮喘、难治性哮喘的可能性增加且其来自母乳的免疫功能降低有关。

分析表明,我们的多项膨胀泊松模型更适合于拟合这个存在数值堆积的哮喘数据。该模型拟合数据的预测值更接近实际值、模型的拟合优度更好,通过该模型,我们发现了以往使用传统模型研究中未曾发现的儿童行为量表得分对患儿家长汇报患儿气喘天数的影响,可以为哮喘的预防提供一些理论基础。

作者贡献声明顾丹彤 数据统计和分析,模型运算,论文撰写和修订。林遂恒 论文构思,数据采集,论文修订。

利益冲突声明所有作者均声明不存在利益冲突。

猜你喜欢
泊松气喘天数
本周连跌天数居前个股
本周连涨天数居前个股
基于泊松对相关的伪随机数发生器的统计测试方法
改善气喘的三款药膳
基层中医药(2021年2期)2021-03-26 19:31:53
带有双临界项的薛定谔-泊松系统非平凡解的存在性
生日谜题
憋得气喘
泊松着色代数
憋得气喘
1<γ<6/5时欧拉-泊松方程组平衡解的存在性