基于广义相加模型的脑卒中发病环境因素分析

2014-10-10 05:16河南工业职业技术学院河南南阳473009重庆大学数学与统计学院重庆401331西南石油大学外国语学院四川成都610500临沂大学理学院山东临沂276005
关键词:气压发病率气象

(1.河南工业职业技术学院,河南南阳 473009;2.重庆大学数学与统计学院,重庆 401331;3.西南石油大学外国语学院,四川成都,610500;4.临沂大学理学院,山东临沂,276005)

(1.河南工业职业技术学院,河南南阳 473009;2.重庆大学数学与统计学院,重庆 401331;3.西南石油大学外国语学院,四川成都,610500;4.临沂大学理学院,山东临沂,276005)

利用统计方法,通过建立广义相加模型,对脑卒中发病数与气温,气压和湿度之间的关系做了建模分析;结果显示,低气温和高气压对脑卒中发病率的影响较大,不同性别脑卒中发病率对天气的反应不一样,女性对气压的反应要更大些,60岁以下的人群脑卒中发病率受低温影响较为明显,而60岁以上人群脑卒中发病率受气压变化的影响更为明显;最后,对高危人群提出预警和干预的建议方案。

广义相加模型(GAM);脑卒中发病率;环境因素

1 问题重述

脑卒中(俗称脑中风)是目前威胁人类生命的严重疾病之一,它的发生是一个漫长的过程,一旦得病就很难逆转。这种疾病的诱发已经被证实与环境因素,包括气温和湿度之间存在密切的关系。对脑卒中的发病环境因素进行分析,其目的是为了进行疾病的风险评估,对脑卒中高危人群能够及时采取干预措施,也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。同时,通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义[1-4]。

在给出的中国某城市各家医院2007.1-2010.12的脑卒中发病病例信息以及相应期间当地的逐日气象资料的基础上,回答3个问题:

(1)根据病人基本信息,对发病人群进行统计描述;

(2)建立数学模型研究脑卒中发病率与气温、气压、相对湿度间的关系;

(3)查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合1、2中所得结论,对高危人群提出预警和干预的建议方案。

2 问题分析

通过对数据的统计分析,对脑卒中发病人群进行统计描述,并且挖掘出脑卒中发病率与天气因素之间的隐含关系,并利用得到的结果对高危人群提出预警和干预的建议方案。

因此,对于问题一,题目给出的病人信息有性别,年龄,职业,发病时间,诊断报告时间这五类,因此,可以从几个方面对数据进行统计分析:病人的性别分布,病人在各个年龄段的分布,不同职业的病人分布,从发病时间到诊断报告时间之间的时间差分布,脑卒中病在一年中各月的发病数分布,2007-2010年各年的发病人数分布等。通过上述信息的统计,基本上可以对脑卒中的发病人群以及高发时间有了基本的认识。

对于问题二,为了寻找脑卒中发病率与气温、气压、相对湿度之间的关系,这是一个典型的寻找数据相关性问题,解决方案可以有多种。如相关分析,主成分分析等。但首先应先对当地的逐日气象资料进行统计处理,减少数据量,考虑以月为单位,计算2007-2010年各月的气象指标。根据题目给出的信息,选择的气象指标有:月平均气温,月平均最高温差,月平均气压,月平均最高气压差,月平均相对湿度,月平均最低相对湿度。

对于问题三,通过查阅和搜集文献中有关脑卒中高危人群的重要特征和关键指标,结合问题一、二中所得结论,找到重要特征和关键指标与所得结论之间的联系,结合我国的实际情况,对脑卒中高危人群提出预警和干预的切实可行的建议方案。

3 模型假设

根据采用的模型和数据范围,做如下假设:

(1)假设各种职业的患脑卒中的病人选择就医的比例是一致的;

(2)假设当地的政治,地理和气象条件在2007-2010年期间没有发生重大改变;

(3)假设所给数据真实,完整地反应了当地脑卒中病人的发病情况。

4 符号说明及名词定义

α:常数项;E(yi):第i周发病人数的预测值;fj:为非参数平滑函数;χji:为产生非线性影响的变量(如气象因素和时间趋势变量等)。

5 模型建立与求解

根据题目的要求,对给出的数据进行了统计分析,对脑卒中发病情况进行了定性的分析,并从定量的角度分析了脑卒中发病率与气温、气压、相对湿度间的关系。

5.1 发病人群的统计描述

对给定的数据进行预处理,运用基本的统计手段,分析了脑卒中发病相关参数,如性别,职业,年龄等,统计了脑卒中发病数在以上各方面的分布情况。

(1)性别参数。图1是2007-2010年各年男女发病人数的比例图,图中显示,男性病人的比例要大于女性病人的比例。根据图1数据,计算了4年的平均性别比,约1.16。这个值远大于第六次全国人口普查公布的总人口性别比1.05,因此,可以比较肯定地说男性的脑卒中发病率要高于女性的脑卒中发病率。

图1 2007-2010年各年脑卒中发病人数男女比例

图2 脑卒中发病人数在各个职业中的分布情况

(2)职业参数。图2是脑卒中发病人数在各个职业中的分布情况。脑卒中发病数量的前3位分别是:农民(67.5%)、离退休人员(19.0%)和工人(11.0%)。离退休人员因为年龄因素,本身处于疾病的高发期,发病数目较高是可以理解的,但是,农民占了脑卒中发病人数的一半以上,这与农村的生活,医疗卫生环境较差是有紧密关系的,而处于城市人口较低阶层的工人群体也有比较高的发病率,这说明好的生活条件和生活环境对脑卒中的影响可能是十分巨大的,因此,如果期望控制脑卒中病的发病率,农村人口和城市普通民众的生活条件改善将是关键。

图3 各年龄段脑卒中病人的分布情况

(3)年龄参数。图3是各年龄段脑卒中病人的分布情况。从图3知,脑卒中病在各个年龄段均有个能出现,但在年轻人群体中发生的比例比较小,年龄越大,发病数越多,尤其是60岁之后,发病人数急剧上升(60岁之后的发病人数占了总发病人数的80.5%)。而在80岁之后的发病人数迅速下降,是受人的平均寿命影响导致的,而老年人是脑卒中病的高危人群,因此,老年人因格外注意脑卒中病的防治。

5.2 脑卒中发病率与气温、气压、相对湿度间的关系

在5.1中对数据进行了定性的统计分析和描述,定性分析了脑卒中发病与性别,职业,年龄这3种参数之间的关系。但上述分析对于完全认清脑卒中病的发病规律是远远不够的,而目前这种疾病的诱发已经被证实与环境因素,包括气温和湿度之间存在密切的关系。因此,对脑卒中的发病环境因素进行分析是十分有必要的。通过这些分析,可以对疾病进行风险评估,对脑卒中高危人群能够及时采取干预措施,也让尚未得病的健康人,或者亚健康人了解自己得脑卒中风险程度,进行自我保护。同时,通过数据模型的建立,掌握疾病发病率的规律,对于卫生行政部门和医疗机构合理调配医务力量、改善就诊治疗环境、配置床位和医疗药物等都具有实际的指导意义。

综合考虑各种统计模型的优缺点后,拟采用广义相加模型(Generalized Additive Models,GAM)对此上述变量和因变量的关系进行分析。GAM模型是广义线性模型的半参数扩展,但差别在于其函数的组成成分是光滑函数。GAM的优点在于其解决因变量与变量之间的高度非线性和非单调关系方面的突出能力,是一种基于数据的模型。同时,GAM模型可针对不同的变量采取不同的策略建模。正因为如此,GAM模型具有高度的灵活性,在数据相互关系等的研究中应用较为广泛。

5.2.1 数据预处理

由于天气因素是具有周期性的,因此,为了探寻脑卒中发病人数与天气因素的关系,先将脑卒中病人的发病数按周进行了统计,并绘制一年52周的发病人数曲线(图4)。从图4中可以清晰地看到曲线呈现出某种周期性,这是否与天气因素有相关关系呢,将十分值得期待。考虑到不同人群的发病情况可能不一样,除了总发病人数外,还将考虑男性发病人数,女性发病人数,≤60岁的发病人数和>60岁的发病人数等因变量,在变量,即天气因素的选择上,为了充分利用给定的数据,寻找可能的关系,对给定的8个气象指标全部加以利用,并由最高气压和最低气压计算得到气压差,由最高温度和最低温度计算得到温度差。所以,考虑的气象因素共计有10个。

图4 脑卒中病人每周平均发病人数曲线

5.2.2 数据检验

GAM模型要求作为因变量的数据可以是任何形式的指数型分布(如正态分布、泊松分布和二项式分布等)。故在建立模型之前,必须先对脑卒中病人的发病数做分布检验,先通过观察脑卒中发病数的直方图,发现其具有正态分布的特征,如图5所示。因此,接下来对其正态分布做了假设检验。首先,作出样本数据的正态概率图(图6),发现样本数据概率基本上都分布在一条直线上,这表明样本数据确实是来自正态分布,GAM模型是适用的。进一步,估计了样本来自正态分布的均值和标准差,均值为296.826 9,标准差为25.077 3。

图5 脑卒中发病数的直方图(红线为拟合的结果)

图6 数据的正态性检验

5.2.3 模型建立

GAM模型的基本形式为

E(yi)是第i周发病人数的预测值,fj为非参数平滑函数,χji为产生非线性影响的变量(如气象因素和时间趋势变量等)。采用平滑样条函数,最大程度拟合有关因素,把上述气象因素作为直线变量引入模型,探究上述各种气象因素对脑卒中发病的影响。

5.2.4 模型求解

因为气象因素是作为直线变量被引入GAM模型的,因此,模型的求解可以利用回归的方式进行。通过构建变量矩阵和因变量向量,直接调用matlab中的regrsss函数,即可得结果(表1):

表1 周平均发病人数与主要气象因素关系的GAM拟合分析

对其他几组依据性别和年龄统计的发病人数,同样利用GAM模型拟合了其与主要气象因素的关系,通过计算,结果如表2:

表2 依性别和年龄统计的发病人数与气象因素的GAM拟合分析

5.2.5 结果分析

通过表1和表2的结果,发现发病人数与气象因素中的平均最低气压和平均最高温度无关。对其他因素之间关系的详细分析如下:

(1)总体数据分析。采用光滑样条函数对变量进行广义相加模型的非参数拟合,拟合方程为:

其中,X1,X2,…,X8分别是平均气压,平均最高气压,平均温度,平均最低温度,平均湿度,平均最低湿度,平均气压差和平均温差。从上述拟合方程可以看到,脑卒中与上述因素都有关系,其中,与平均气压,平均温度,平均湿度平均气压差都呈正相关关系,而与另外几个因素呈负相关关系。影响最大的分别是平均气压和平均温度这两个因素,即当平均气压升高和平均温度降低时,脑卒中发病人数也在增加。这两种气象因素的改变往往意味着天气变冷,因此,脑卒中高危人群应特别注意冬天寒冷天气的保暖。

(2)按性别分层分析。通过表2比较男性和女性脑卒中发病人数对天气因素的反应情况发现,女性对气压的反应要大于男性对气压的反应,而且男性发病数对温度的反应方式与女性对温度的反应方式恰好相反,即当温度降低时,女性发病数会增加,但男性发病数反而会降低。这一点,在对温差的反应上也是一致的。

(3)按年龄分层分析。通过表2关于年龄部分的结果看到,60岁以下人群的发病数最容易受到温度的影响,即当温度发生变化时,60岁以下人群的发病数要高于60岁以上人群。而平均气压的变化对60岁以上人群的脑卒中发病率要影响更为严重一些。

5.3 对脑卒中高危人群预警和干预的建议方案

脑卒中高危人群一般有两大特征:一类是可加以干预的主要危险因素,如患有高血压、糖尿病、高脂血症、心房纤颤等疾病的人以及有吸烟、酗酒等不良习惯的人,另一类是不可改变的因素如性别年龄。第一个问题的研究结果也表明随着年龄的增加,脑卒中的发病率也增加,男性发病率要大于女性。

由于脑卒中的治疗效果尚不能令人满意,其致残致命率较高,目前最好的办法是加强预防。结合对环境因素的研究,提出预防方案:

(1)加强宣传教育,使人们能够认识到脑卒中的危害性及严重性,并对其影响因素和预防方法有较深入的了解。

(2)定期组织活动,鼓励人们锻炼身体,注意防寒保暖,戒掉不当生活习惯。

(3)对高血压、糖尿病等疾病患者实行分级管理,定期进行检查。

(4)医院应随时做好应对突发病例的情况,传授人们急救的相关知识。

6 模型评价与进一步的讨论

非参数的广义相加模型与参数相比有诸多优点,如放宽线性条件要求,适应于任意分布的资料等。尤其是当因变量和变量之间的具体关系不是很明确时,适用广义相加模型。

应用广义相加模型,很好的分析了脑卒中发病率与环境因素的关系,同时针对不同性别,不同年龄段的人群同样得到了较好的结果。但是模型依然有可以改进的空间,比如在对数据内部相关性的处理方面还需要进一步的修正,将修正之后的自变量带入模型进行求解可能会更符合实际情况。

[1]郑阿奇,曹戈.MATLAB使用教程[M].北京:电子工业出版社,2008

[2]姜启源,谢金星叶俊.数学模型[M].北京:高等教育出版社,2003

[3]王文志.中国脑卒中流行病学特征和社区人群干预[J].中国医学前沿杂志,2009

[4]陈正伟,张南林.基于购买力平价下的共同富裕的测算模型及实证分析[J].重庆工商大学学报:自然科学版,2013(6):1-5

基于广义相加模型的脑卒中发病环境因素分析*

张 勇1,张付臣2,张光云3,袁 红4

Analysis of Environment Factors for the Incidence of Brain Stroke Based on Generalized Additive Model

ZHANG Yong1,ZHANG Fu-chen2,ZHANG Guang-yun3,YUAN Hong4

(1.Henan Polytechnic Institute,Henan Nanyang 473009,China;
2.School ofMathematics and Statistics,Chongqing University,401331,China;
3.School of Foreign Language,Southwest Petroleum University,Chengdu 610500,China;
4.School of Science,Linyi University,Shandong Linyi276005,China)

By using statistical method,through setting up generalized additive model,this paper conducts modeling analysis of the relationship among the number of brain stroke incidence,temperature,atmospheric pressure and humidity,and the results show that low pressure or high pressure has big influence on the incidence of brain stroke,that the stroke incidence rate with differentgenders is differently sensitive to the weather,that the female has bigger sensitivity to atmospheric pressure,meanwhile,the brain stroke incidence rate for the people under 60 years old is obviously affected by low temperature,however,the brain stroke incidence rate for the people above 60 years old ismore obviously affected by pressure.Finally,this paper advances suggestions of intervention and early-warning for high risk human groupswith the possible incidence of brain stroke.

general additive model(GAM);brain stroke incidence rate;environment factor

田 静

F241.3

A

1672-058X(2014)02-0043-07

2013-08-02;

2013-09-02.

国家自然科学基金(11271175).

张勇(1981-),男,河南南阳人,讲师,从事大学数学研究.

猜你喜欢
气压发病率气象
气象树
看不见的气压
多晒太阳或可降低结直肠癌发病率
《内蒙古气象》征稿简则
《液压与气压传动》课程教学改革探索
ARIMA模型在肺癌发病率预测中的应用
压力容器气压端盖注射模设计
大国气象
美丽的气象奇观
宫内节育器与宫颈糜烂发病率的临床研究