哈尔滨医科大学公共卫生学院(150086) 赵 晶 所佳宁 罗 潇 董晓慧 蔡富文 刘美娜
基于零膨胀模型的阳性过敏原数影响因素研究*
哈尔滨医科大学公共卫生学院(150086) 赵 晶 所佳宁 罗 潇 董晓慧 蔡富文 刘美娜△
目的探讨阳性过敏原数影响因素是过敏反应研究的新角度,利用零膨胀模型进行回归分析,了解阳性过敏原数的影响因素,为过敏反应的早期预防提供理论依据。方法收集2010年3月至2011年12月在哈尔滨医科大学附属第一医院过敏反应科就诊的3191例患者信息。根据零膨胀、过离散检验以及拟合指标评价选取最优模型——零膨胀负二项模型,分析阳性过敏原数的影响因素。结果生活地区和吸烟是出现阳性过敏原的影响因素:生活在城市相对于农村易出现阳性过敏原,吸烟易出现阳性过敏原;性别、过敏史和辛辣食物是影响阳性过敏原数目多少的因素:男性、有过敏史、不喜好辛辣食物的人阳性过敏原数更多。结论应用零膨胀模型解释阳性过敏原数影响因素更为新颖和细致,是过敏反应研究领域方法学的突破。预防过敏反应发生提示应关注城市和吸烟人群,降低过敏反应的严重程度应关注男性、有过敏史和不喜好辛辣食物人群。
零膨胀模型 阳性过敏原数 影响因素
零膨胀(zero-inflated)是指计数资料中常常出现的观测数据0值很多的一种现象,数据变异性很大,传统计数模型不能满足应用条件。20世纪60年代,零膨胀现象就引起了广泛关注[1],零膨胀概念首先是由Lambert在1992年提出,将零膨胀模型应用于质量控制,对0计数部分和非0计数部分建立混杂概率分布,建立具有协变量的零膨胀Poisson模型[2]。还有研究者在零膨胀Poisson模型基础上构建零膨胀负二项模型,分析银行信用卡不良消费记录[3]。在本研究中,数据为计数资料,具有零膨胀、过离散特点,零膨胀模型比传统计数模型更适用。
1.研究对象
研究人群来源于2010年3月至2011年12月在哈尔滨医科大学附属第一医院过敏反应科就诊的患者,对研究人群进行问卷调查以及血清过敏原特异性IgE检测,共收集有效样本3191例。
2.问卷调查
采用面访式调查,调查员均是统一培训过的在读研究生。问卷调查内容包括一般情况、生活饮食习惯、过敏史和家族史等。
3.实验室检测
应用德国MEDIW ISS“敏筛”定量过敏原检测系统,进行血清过敏原特异性IgE检测。血清样本可检测户尘螨屋尘、矮豚草蒿、鱼、牛奶、小麦等19种过敏原[4]。IgE抗体浓度值≥0.35认为该过敏原阳性,每个受试者均可得到阳性过敏原数。
4.研究方法
零膨胀模型将计数数据的来源看成两个过程:第一个过程是由生成零计数的二项分布支配,此过程个体取值只能为0,解释因素是否影响事件的发生;第二个过程对应事件发生数,由计数分布支配,此过程个体的取值可以是0,也可以是正的事件数,解释因素影响事件数发生的多少。零膨胀模型适用于0值很多、过离散的数据,估计结果有效性强,没有偏差,可以得到可靠的假设检验与参数估计。
(1)零膨胀Poisson回归模型(ZIP)和零膨胀负二项回归模型(ZINB)
零膨胀Poisson回归模型是将原始数据集看做由一个全0数据集与一个满足Poisson分布的数据集混合而成[2]。
logitπ()i=Giγ,ln()μ=Biβ。Gi和Bi为协变量向量;γ和β为待估参数,两者可以一致也可以不同[5]。
零膨胀负二项回归模型是将原数据集看做一个全为0的数据集与一个满足负二项分布的数据集混合而成[6]。
logit(πi)=Giγ,ln(μ)=Biβ+εi。Gi和Bi为协变量向量;γ和β为待估参数,两者可以一致也可以不同,εi与自变量无关,exp(εi)服从均值为1的伽马分布。
零膨胀回归模型数据来源两部分,logit部分和计数部分(如Poisson或负二项部分)。将单因素logistic回归分析的参数估计作为零膨胀回归模型Logit部分的参数初始值;将传统计数回归分析的参数估计作为零膨胀回归模型计数部分的参数初始值。进行零膨胀回归模型拟合,得到参数估计结果、P值、拟合效果指标等,探讨阳性过敏原数影响因素。
(2)最优模型的选择
最优模型选择包括三部分:过离散检验、零膨胀检验以及模型拟合效果指标比较。
1)采用O检验判定数据是否过离散,统计量的计算如下[7],当O≥1.96时,数据存在过离散。
2)Vuong检验用于检验0频数是否过多,帮助判定选择Poisson模型、负二项模型这类传统模型或选择零膨胀模型[8,9]。Vuong统计量的计算如下。
f1、f2表示回归模型的PDF。V≥1.96时,模型应选择f1,V<-1.96则选择f2,当V在-1.96与1.96之间时,说明俩模型均不是最优模型。
3)模型拟合指标,包括AIC、AICC、BIC以及似然比值。数值越小,拟合效果越好。
1.阳性过敏原数分布
研究对象阳性过敏原数分布情况如表1,0值比例占总例数的79.41%,其它阳性过敏原数的比例均较小。
表1 阳性过敏原数分布
2.变量赋值
本研究自变量的一般情况包括性别、年龄、文化程度、生活地区、体质指数;疾病家族史情况如父亲过敏、母亲过敏、自身过敏史;生活饮食因素有锻炼、吸烟、被动吸烟、饮酒、生冷食物、油炸食物、辛辣食物、高盐食物。其中,年龄、体质指数为连续型变量,文化程度为等级变量,其余均为二分类变量。变量赋值见表2。
3.最优模型的选择
(1)零膨胀检验结果:
表2 变量赋值说明
(2)过离散检验结果:
(3)拟合指标结果
运用SAS9.1软件,PROC NLM IXED语句进行分析,模型收敛给出四个拟合指标:-2LL、AIC、AICC、BIC,各模型拟合指标情况见表3。
表3 各模型的拟合指标
综合(1)(2)(3)可知,数据零膨胀、过离散,综合拟合指标,零膨胀负二项模型拟合效果较好,选取零膨胀模型为最优模型,利用零膨胀负二项模型进行影响因素回归分析。
4.零膨胀负二项回归分析结果
零膨胀负二项回归分析模型包括两部分,Logit部分和负二项部分。两部分参数初始值设定依据为:根据单因素Logistic回归分析设定Logit部分参数初始值,根据负二项回归设定负二项部分参数初始值。以阳性过敏原数为应变量,表2中变量为解释变量,进行零膨胀负二项回归分析。零膨胀负二项回归分析Logit部分与负二项部分结果分别见表4和表5。参数意义:Logit部分是以0的发生为响应概率,与Logistic回归分析参数意义相同,但正负相反,参数可以体现因素是否影响事件的发生,即本研究中是否具有阳性过敏原。负二项部分的参数体现因素影响事件发生数的多少,参数为正,表示随自变量值变大,应变量变大,即阳性过敏原数更多。
表4 零膨胀负二项回归分析Logit部分结果
零膨胀负二项回归分析Logit部分有统计学意义的因素有生活地区和吸烟,生活在城市相对于农村易出现阳性过敏原,吸烟易出现阳性过敏原;零膨胀负二项回归分析负二项部分有统计学意义的因素有性别、过敏史和辛辣食物,男性相对于女性出现阳性过敏原数更多,有过敏史、不喜好辛辣食物的人出现阳性过敏原数更多。
表5 零膨胀负二项回归分析负二项部分结果
相对于Logistic回归分析,零膨胀模型从阳性过敏原数角度研究过敏反应的影响因素,能更充分地利用数据的有效信息;相对于传统的Possion、负二项回归分析,零膨胀模型解决了数据的零膨胀问题。有模拟数据研究,当0频数比例大于70%时零膨胀负二项模型拟合效果优于其它模型[10]。在本研究中0频数为79.41%,综合过离散、零膨胀检验以及拟合指标结果,选取零膨胀负二项回归模型为最优模型。
城市人口数量不断增多、工业化脚步进展加快、空气质量下降、含有有机化学物的现代化建筑材料使用广泛,易释放大量有害物质,会对身体产生刺激作用,引起过敏反应,生活在城市发生过敏反应的危险性高。相关研究表明吸烟有增加过敏风险的倾向[11]。吸烟时烟雾中的一氧化碳、尼古丁、烟焦油等有害物质不仅对人体会产生理化损伤,同时还会刺激人体过敏反应,导致过敏症状出现。本研究显示生活在城市相对于农村易出现阳性过敏原,吸烟易出现阳性过敏原。
有关过敏性疾病的病例对照研究报道,女性是过敏反应发生的保护因素;也有过敏原皮试研究,男性的阳性率明显高于女性[12]。有过敏史的人容易疾病反复、病情加重,控制不好很容易合并多种物质过敏。叶世泰主编的变态反应学一书中从免疫学角度总结,有过敏史的人形成特异性IgE的能力往往较高[13],阳性过敏原数较多。辛辣食物中辣椒VC含量高,可以增加人体免疫系统功能;洋葱大蒜具有抗炎症作用,可预防过敏反应发生;姜能减轻过敏引起的炎症,可以有效缓解过敏症状。
1.Johnson NL,Kotz S.Houghton M ifflin.Boston.Distributions in Statistics:Discrete Distributions,1969.
2.Lambert D.Zero-inflated Poisson Regression w ith an Application to Defects in Manufacturing.Technometrics,1992,34:1-14.
3.GreeneW.Accounting for excess zeros and sample selection in Poisson and negative binom ial regression models.Department of Econom ics,Stern School of Business:New York University,1994.
4.赵晶,张莉华,关媛媛,等.速发型超敏反应疾病影响因素病例对照研究.中国公共卫生,2013,29(5):654-656.
5.曾平,刘桂芬,曹红艳.零膨胀模型在心肌缺血节段数影响因素研究中的应用.中国卫生统计,2008,25(5):464-466.
6.JosePh M,Hilbe.Negative Binom ial Regression.London:Cambridge Univ Pr,2007:77-96,173-177.
7.Ceppi M,Biasotti B,Fenech M,et al.Human Population studies w ith the exfoliated buccalm icronucleus assay:statistical and epidem iological issues.Mutat Res,2010,705(1):11-9.
8.Yau KK,Lee AH,Carrivick PJ.Modeling zero-inflated count series w ith Application to occupational health.Computer Methods Programs Biomedicine,2004,74(l):47-52.
9.Riccardo E,Marionia1,Fiona E.Matthews and Carol Brayne.The association between late-life Cognitive test scores and retrospective informant interview data.Int Psychogeriatr,2011,23(2):274-279.
10.徐涛.零频数过多资料的统计学模型应用研究.北京:北京协和医学院,2011.
11.Nagasaki T,Matsumoto,Nakaji H,et al.Smoking attenuates the age-related decrease in IgE levels and maintains eosinophilic inflammation. Clin Exp Allergy,2013,4(6):608-615.
12.赵玉霞,康健,于润红.沈阳郊区农民过敏原皮试反应阳性率性别差异.中国公共卫生,2000,16(5):471.
13.叶世泰.变态反应学.北京:科学出版社,1998,38.
(责任编辑:丁海龙)
国家重大专项课题(2011ZX08011-005)
△通信作者:刘美娜,E-mail:liumeina369@163.com