康万里 端木宏谨 郑素华
疾病的流行特征通过疾病在人群、时间、空间的三间分布得以实现,是流行过程的可见形式。研究疾病的人群分布是流行病学研究中一个非常重要的部分,疾病的发病随人群中的一些固有特征或社会特征的不同而有差异,这些特征有年龄、性别等因素,研究这些相关因素特征,有助于探索疾病的危险因素和流行特征。疾病与年龄的关联性较强,随年龄的不同,几乎大部分疾病的发病率或死亡率显著不一。将同一时期出生的人划归一组称为出生队列(birth cohort),可对其随访若干年,以观察疾病患病和死亡情况。利用出生队列资料将疾病年龄分布和时间分布结合起来描述的一种方法称出生队列分析方法,该方法在评价疾病的年龄分布长期变化趋势及提供病因线索等方面具有很大意义[1]。
结核病(tuberculosis)是由结核分枝杆菌(Mycobacterium tuberculosis,简称“结核杆菌”)主要经呼吸道传播引起的全身慢性传染病。结核病是危害人类健康的主要传染病之一,据世界卫生组织(WHO)估计,全球大约有1/3的人感染了结核杆菌,每年新发结核病患者超过800万,并有200万人死于结核病;全球超过90%的结核病患者及90%的结核病死亡发生在发展中国家,75%的结核病患者年龄在15~54岁之间,由于结核病导致的经济损失,约占家庭收入的20%~30%[2]。结核病的流行已成为一个社会关注的公共卫生问题,为了更好地了解我国结核病的流行状况,我国已经进行了4次全国结核病流行病学抽样调查(简称“流调”)(2010年开展第5次流调,详细结果有待公布)。本研究利用我国第3次和第4次全国结核病流调资料,利用出生队列研究我国菌阳肺结核的分布特征,以确定高危人群和提出重点保护对象,并为制定预防措施及评价预防效果提供依据,为我国今后的结核病控制提供依据。
收集1990年第3次和2000年第4次全国结核病流调结果[3-4],建立相关数据库,并进行变量赋值,见表1。第3次全国结核病流行病学抽样调查共调查1461190例,其中男性738075例,女性723 115例;第3次全国流调发现菌阳肺结核患者2389例,其中男性1537例,女性852例。第4次全国结核病流行病学抽样调查共调查365 097例,其中男性182183例,女性182 914例;第4次全国流调发现菌阳肺结核患者584例,其中男性411例,女性173例。
表1 变量赋值
检查、核对原始数据,分析变量赋值,统计分析采用SPSS 13.0和Stata 10.0软件。
1.负二项回归(negative binomial regression,NBREG)[5-6]:负二项分布(negative binomial distribution)常用来描述计数资料的分布特征。拟合计数资料的广义线性模型,实质上就是探讨λ与自变量线性组合Xβ之间的关系。事件数的多少除了取决于总体参数λ的大小外,还取决于暴露单位、暴露事件等的多少。因此,模型中应当既体现自变量的线性组合作用,也要考虑到暴露单位的多少。设因变量y服从参数为λ的负二项分布,影响λ的因素为x1,x2,x3……xm(m 为影响λ 因素的个数),负二项回归模型是对事件发生强度λ进行建模:
βi为偏回归系数,解释为当其他自变量保持不变时,自变量xi每改变1个单位时,ln()的改变量。κ表示超离散的程度,可以进行似然比卡方检验,如果P<0.05,有统计学意义,说明资料符合负二项分布。
2.对应分析(correspondence analysis)[7]:主要用于分析二维列联表中行变量和列变量间的对应关系,将行变量和列变量的信息用散点的空间位置关系的形式表示。
各年龄组菌阳肺结核患病率基本上男性多于女性,各年龄组菌阳肺结核患病率随年龄变化趋势基本相同(图1)。
图1 1990年和2000年菌阳肺结核患病率的年龄、性别分布
根据1990年第3次和2000年第4次流调结果,绘制1910~、1920~、1930~、1940~、1950~、1960~、1970~、1980~共8个年代出生队列的菌阳肺结核患病率分布图,基本上出生时期越早,菌阳肺结核患病率越高(图2)。
图2 菌阳肺结核患病率的出生队列分布
将1910~、1920~、1930~、1940~、1950~、1960~、1970~、1980~共8个年代的出生队列与菌阳肺结核进行负二项回归分析,设出生队列为有序分类变量。对超离散度检验,P<0.001,说明资料符合负二项回归模型。按照出生队列赋值,相邻的出生队列,出生较早的队列患菌阳肺结核风险高于出生较晚的队列,RR=1.582 (95%CI:1.432~1.747),即“1970~年代出生队列”患菌阳肺结核的风险是“1980~年代出生队列”的1.582倍,“1960~年代出生队列”是“1970~年代出生队列”的1.582倍……,见表2。
由表2可知,1910~年代出生队列患菌阳肺结核的风险是1980~年代出生队列的24.800倍(95%CI:12.348~49.665);1920~年代出生队列患菌阳肺结核的风险是1980~年代出生队列的15.676倍(95%CI:8.623~28.429)。
依据菌阳肺结核患病率是否高于全国的平均值,将菌阳肺结核患病率分为菌阳患病率高于、低于全国平均水平两部分,绘制对应分析图(图3)。图3中用散点坐标形式显示出了各变量在两个维度上的区分程度。阅读对应分析图的原则是,从图形中心(0,0)点出发,如代表行变量某个类别或等级的散点,与代表列变量某个类别或等级的散点在同一方位上距离较近,则表明二者有较强的相关性;若距离较远或不在同一方位,则表明二者关联性较弱或无关联。由图3可知,菌阳患病率高于全国平均水平组与出生早的出生队列和男性距离较近,说明这些指标的关联较为紧密;菌阳患病率低于全国平均水平组与出生较晚队列和女性距离较近,说明这些指标关联较为紧密。
图3 菌阳肺结核患病率对应分析图
将性别和出生队列同时引入负二项回归方程,对超离散度检验P<0.001,说明资料符合负二项回归模型。得出回归方程:ln()=0.443×出生队列+0.689×性别-9.347,见表3。
该模型显示:(1)出生队列与菌阳肺结核患病率有关。按出生队列赋值,相邻的出生队列,出生较早的队列患菌阳肺结核风险高于出生较晚的队列,RR=1.557(95%CI:1.443~1.692),即1970~年代出生队列患菌阳肺结核的风险是1980~年代出生队列的1.557倍,1960~年代出生队列是1970~年代出生队列的1.557倍……;1910~年代出生队列患菌阳肺结核的风险是1980~年代出生队列的22.183倍(95%CI:13.028~39.701);1920~年代出生队列患菌阳肺结核的风险是1980~年代出生队列的14.247倍(95%CI:9.028~23.463)。(2)菌阳肺结核与性别有关,依据变量赋值表1,女=1,男=2,结果解释为自变量每上升1个单位,发病风险是原来的倍数。因此,本研究男性菌阳肺结核患病率高于女性,男性患菌阳肺结核的风险是女性的1.992倍(95%CI:1.415~2.807)。
表2 出生队列研究负二项回归参数估计
表3 负二项回归参数估计
我国是全世界22个结核病高负担国家之一,从1990年第3次全国结核病流行病学抽样调查开始调查菌阳患病率。对1个数据集的建模过程远比拟合和检验复杂的多,成功的建模是根据科学原理,将专业知识、经验积累与统计方法相结合。在1个模型中是否纳入1个变量,随不同学科,不同问题而不同,统计学建模的传统方法是寻找能解释资料的最简捷的模型[5]。负二项回归分析是在对资料进行检验符合负二项回归模型后(超离散度检验),对影响该分布因素的参数大小进行估计,在疾病的病因研究和影响因素方面得到了广泛应用[9]。
为了解我国结核病的流行状况和危害程度,我国在1990和2000年进行了第3和第4次全国结核病流行病学抽样调查,应用全国流行病学调查资料可以更好研究我国结核病的人群分布特征和确定高危人群。对应分析通过对应分析图可以直观的显示研究变量之间的关系,落在由原点出发接近相同方位及图形相同区域的不同变量的类别可能有联系。研究显示菌阳患病率高于全国平均水平与较早出生队列和男性可能有联系。通过负二项回归进一步研究了菌阳肺结核与出生队列和性别的关系。(1)出生队列与菌阳肺结核患病率有关。本次研究和历年流调结果相似,出生较早的队列患菌阳肺结核的风险高,出生较晚队列患菌阳肺结核风险低[3]。按出生队列赋值,相邻的出生队列,出生较早的队列患菌阳肺结核的风险是出生较晚队列的1.557倍(95%CI:1.443~1.692),因此应该加强出生队列较早人群结核病的治疗和管理,改善较早出生队列结核病患者的生活质量。出生较晚队列的人群菌阳患病率低也可能是由于近些年我国加强了结核病的预防治疗措施。(2)菌阳肺结核与性别有关,男性菌阳肺结核患病率高于女性,男性患菌阳肺结核的风险是女性的1.992倍(95%CI:1.415~2.807)。原因可能是男女两性接触感染机会不同所致,男性在儿童时期活跃易动,成年后社会活动、应酬较多,因此与传染源接触的就会较多。因此,应该加强男性结核病的防治工作。
[1] 王素萍.流行病学.北京:中国协和医科大学出版社,2003:20-24.
[2] World Health Organization.Treatment of tuberculosis:Guidelines for national programs.3rd ed.Geneva:WHO,2003:11-15.
[3] 中华人民共和国卫生部.2000年全国结核病流行病学抽样调查资料汇编.北京:人民卫生出版社,2003:154.
[4] 中华人民共和国卫生部.1990年全国结核病流行病学抽样调查资料汇编.北京:中华人民共和国卫生部,1992:484.
[5] 陈峰.医用多元统计分析方法.北京:中国统计出版社,2000:115-131.
[6] Byers AL,Allore H,Gill TM,et al.Application of negative binomial modeling for discrete outcomes:A case study in aging research.J Clin Epidemiol,2003,56(6):559-564.
[7] 康万里,李佩珍,郑素华.中国结核病的空间积聚性研究.中国卫生统计,2008,25(3):273-275.
[8] 陈建国,朱健,张永辉,等.江苏省启东地区1973至2002年肝癌发病率长期趋势的评价.中华医学杂志,2005,85(43):3052-3056.
[9] Cameron CM,Purdie DM,Kliewer EV,et al.Mental health:a cause or consequence of injury?A population based matched cohort study.BMC Public Health,2006,6(5):114-122.