社会经济指标与传染病发病率的相关性分析

2013-04-29 07:08周罡周剑岚
中国医药科学 2013年8期
关键词:多元线性回归相关性分析

周罡??周剑岚

[摘要]研究GDP等社会经济指标与传染病发病率之间的相关性具有重要的意义。建立多元线性回归模型,采集GDP、每千人卫生技术人员数目等六类指标,以及2008年分省区的传染病发病人数,针对以上数据进行量性分析。采用SPSS软件,通过后退法首先排除掉那些影响较小的变量,然后利用显著性检验,建立合适的模型,结果表明,染病人数只与GDP与各省人口有关系,与GDP成反比,与各省人口成正比(即发病率与GDP成反比)。验证的模型是一个有效的模型,具有预测性。

[关键词]传染病发病率;社会经济指标;多元线性回归;相关性分析

[中图分类号] R183 [文献标识码] B [文章编号] 2095-0616(2013)08-173-03

传染病发病率是目前研究的热门。研究各省区发病率与社会经济指标,如与GDP的关系,对于疾病的预防意义重大。国内外针对各类传染病发病率的研究,主要集中在导致疾病发生的直接因素分析。邓泗沐等[1]研究了深圳市2000~2010年传染病发病率时间趋势分析,显示伤寒副伤寒对发病率下降的贡献最大。贾蕾等[2]探讨北京市痢疾报告发病率长期变化特点及其与经济、气候等影响因素的关系。冯星淋等[3]研究了10个国家的GDP与中国儿童死亡状况的比较。但是研究社会经济指标,如GDP与传染病发病率关系的研究少之又少,只有Blondal K等[4]研究了结核艾滋病毒感染的发病率与包括国家GDP等的多因素相关。本文采用多元线性回归模型分析传染病发病率与社会经济指标的相关性。多元线性回归模型可以有效分析自变量与因变量的因果关系,应用在各行各业。白萍[5]引入多元线性回归分析的方法,由定性分析选取与我国财政收入有较强的相关性的几个影响因素,以其作为解释变量,建立与财政收入的线性模型。朱祥和根据某地区的相关数据,运用时间序列分析,多元线性回归法,对影响该地区私家车保有量的几个因素进行数学建模。在对模型进行适当修正后,找出其中的相关性和函数关系,从而对该地区的私家车保有量进行预测[6]。

1 建模

本研究的数据定义如下,因变量y为2008年各省传染病人数,自变量x1为2008年各省GDP总值,x2各省人均医疗费用,x3各省人口总数,x4各省每千人的卫生技术人员数目,x5各省疫病预防中心人数,x6各省废气排放的多少。由于计算量大,通过SPSS软件进行相关运算。首先进行相关性分析,结果如表1所示。

表1显示了自变量与各个因变量的相关程度以及各个因变量之间两两的相关程度,这些相关程度是通过pearson相关系数来表示的,y与x1,x3,x4,x5,x6的相关系数在0.5附近或者0.5以上,说明所选自变量与y是显著相关的,用y与自变量做多元线性回归是合适的。y与x2的相关系数ry2=-0.258,P=0.081,相关系数偏小,说明各省人均医疗费用对各省传染病人数无显著地影响。

然后进行F显著性与t显著性检验,通过SPSS计算得出线性拟合度的样本决定系数r2=0.874,它反应出模型对样本观测值的拟合程度相当高,符合要求。F显著性检验值F=5.5,通过检验,说明自变量总体与因变量显著相关。t显著性检验是检验每个自变量对因变量的影响,由SPSS计算得:β0=569.435,β1=-0.184,β2=-1.147,β3=1.680,β4=37.919,β5=0.064,β6=-0.043,得到多元线性模型

y=549.435-0.184x1-1.147x2+1.680x3+37.919x4+0.064x5-0.043x6。但是计算t显著性检验得:P2=0.594,P4=0.752,P5=0.682,P6=0.259,它们都远远大于0.05,通不过t显著性检验。

在众多自变量当中,由于某些自变量不显著,因此自变量不是越多越好,但由多个自变量不显著影响因变量时,由于自变量之间的相互作用,我们不能一次剔除所有的不显著的变量,我们将先剔除其中P值最大的一个变量,在对新的回归方程进行回归检验,又不显著的再剔除,直到保留的自变量都对y有显著性的影响为止。因此可以采用后退法进行进一步分析。首先分析不显著变量剔除的顺序,通过计算可知依次剔除的变量为:各省每千人卫生技术人员数目,各省人均医疗费用,各省疾病预防中心人数,各省的废气排放,我们将依次剔除这些变量,并依次对剩下的变量建立模型分析。随后计算剔除变量后的拟合优度。

从表2可知剔除变量的过程当中,样本决定系数依次为0.874,0.873,0.872,0.871,0.863,线性拟合度依次有所降低,当自变量只剩下GDP(亿元)和各省人口(万人)时,r=0.929,r2=0.863,依然与样本观测值高度拟合,依旧符合要求。

然后对剔除变量后的模型进行F显著性检验,F值依次为27.677,34.429,44.348,61.003,87.882,F值依次增加,显著性依次增加,当自变量只剩下GDP(亿元)和各省人口(万人)时,F=87.882远远大于F0.001(2,28)=9.64,通过F显著性检验。剔除变量后的t显著性检验的P最大的变量剔除掉,直到自变量只剩下GDP(亿元)和各省人口(万人)时,这是所有的自变量全通过t显著性检验,所以通过t显著性检验。

2 模型结果

在多元线性回归模型当中,我们选取了6个自变量,它们分别是自变量x1为2008年各省GDP总值,x2各省人均医疗费用,x3各省人口总数,x4各省每千人的卫生技术人员数目,x5各省疫病预防中心人数,x6各省废气排放的多少。开始建立的模型是

y=569.435-0.184x1-1.147x2+1.68x3+37.919x4+0.064x5-0.043x6

但是这个模型并不理想,所选自变量数目过多,回归系数显著性检验不能通过,自变量存在共线性。为了完善此模型,采取后退法,剔除P值较大的变量,最后得到多元线性回归模型

y=180.299-0.206x1+1.693x3

=180.299-0.206GDP(亿元)+1.693各省人口(万人)。

3 讨论

本文首先建立了一元线性回归模型,因变量为各省传染病人数,自变量为各省2008年的传染病人数,经过分析,虽然此模型通过了显著性检验,但是此模型的线性拟合度不够,不能正确地控制和预测,因此此模型不适合。

接着本文又建立多元线性回归模型,刚开始时因变量为各省传染病人数,自变量x1为2008年各省GDP总值,x2各省人均医疗费用,x3各省人口总数,x4各省每千人的卫生技术人员数目,x5各省疫病预防中心人数,x6各省废气排放的多少,建立模型后,此模型通不过t显著性检验。为了继续进行分析,本文选择了后退法,排除掉那些影响较小的变量,排除掉x2各省 人均医疗费用,x4各省每千人的卫生技术人员数目,x5各省疫病预防中心人数,x6各省废气排放的多少,所有变量通过显著性检验。

模型分析结果表明GDP是重要的社会经济宏观指标之一,代表了社会经济的发展,它与各省传染病人数是成反比的,GDP每增加一亿元,传染病人数就减少0.206人,而各省人口与各省传染病人数是成正比的,人口没较少一万人,传染病人数就减少1.63人,因此采取的措施为:(1)改革大的制度化境,培育科技创新的自我孕育能力,提高生产技术水平和人文素质。(2)对一个国家或一个地区而言,计划生育就是在全国或整个地区范围内,对人口发展进行有计划的调节,使人口的增长同社会和经济的发展相适应。

总之,因变量传染病人数只与GDP与各省人口有关系,与GDP成反比,与各省人口成正比。近几年我国经济呈高速发展,各地经济一片繁荣,经济得到发展,人们的生活条件得到提高,卫生意识也随之提高,可以支配用于医疗的费用也提高,国家也有更多的经费采购设备来治愈疾病,这些都会减少传染病的人数。但是还有一个因素会增多传染病人数,那就是中国的人口。虽然我国目前严格执行计划生育,但是我国人口基数太大,在近几年我国人口还是保持较快的增长,因此近几年传染病总体来说还是会有所增长。再过几年,我国将进入老年社会,等过完这段时间,人口数量增速将减慢,那时的传染病发病率及发病人数将开始减少。

[参考文献]

[1] 邓泗沐,梁桂玲,叶郁辉,等.深圳市2000~2010年传染病发病率时间趋势分析[J].中国热带医学,2012,12(1):28-30.

[2] 贾蕾, 曹卫华,贺雄,等.北京市痢疾发病率影响因素分析[J].中国公共卫生,2007,23(8): 1004-1006.

[3] 冯星淋,罗昊,沈娟,等.中国儿童死亡状况的国际比较[J].儿童保健,2010,3:339-342.

[4] Blondal K,Viiklepp R,Blondal P,et al.Countrywide management of pulmonary tuberculosis reverses increasing incidence[J].International Journal of Tuberculosis and Lung Disease,2011,15(7):892-898.

[5] 白萍.影响我国财政收入的多元线性回归模型[J].统计与决策,2005,5:92-94.

[6] 朱祥和.基于多元线性回归的私家车保有量预测[J].湖北工业大学学报,2011,26(3):27-31.

(收稿日期:2013-03-26)

猜你喜欢
多元线性回归相关性分析
基于组合模型的卷烟市场需求预测研究
基于多元线性回归分析的冬季鸟类生境选择研究
滨州市城区苔藓植物主要重金属含量的调查与分析
人民币汇率变动与中国入境旅游相关性分析(2002—2016)
上市公司财务指标与股票价格的相关性实证分析
我国上市商业银行信贷资产证券化效应实证研究
淘宝星店成长中的粉丝力量
中国城市化与经济发展水平关系研究
云学习平台大学生学业成绩预测与干预研究
我国物流企业规模与效益的相关性分析