呼吸系统疾病死亡人数的人工神经网络方法研究*

2014-03-10 07:03兰州大学大气科学学院甘肃省干旱气候变化与减灾重点实验室730000
中国卫生统计 2014年5期
关键词:气象神经网络预测

兰州大学大气科学学院甘肃省干旱气候变化与减灾重点实验室(730000)

张 莹 邵 毅 王式功△尚可政 李 旭 刘 慧 耿 迪

呼吸系统疾病死亡人数的人工神经网络方法研究*

兰州大学大气科学学院甘肃省干旱气候变化与减灾重点实验室(730000)

张 莹 邵 毅 王式功△尚可政 李 旭 刘 慧 耿 迪

目的利用南京市2004-2009年呼吸系统疾病死亡病例和同期的气象资料,分析了气象因子(包括三种舒适度指数)与呼吸系统疾病死亡人数的相关性。方法通过BP神经网络建立了呼吸系统疾病死亡人数的预报模型,并对其进行评价。结果气象因素及其变化与呼吸系统疾病死亡人数有密切的关系。建立的呼吸系统疾病死亡人数的神经网络预报模型结构为15-20-1(即有15个输入、20个隐含节点和1个输出),训练精度为0.005,训练了26步达到目的,预测准确率达80.11%。结论与统计预报方法相比较,该方法计算简便、误差较小、预测准确率高,对呼吸系统疾病死亡人数有较好的预测效果,为医疗气象预报提供了一种新方法,具有进一步的研究价值。

呼吸系统疾病死亡人数 气象因子 BP神经网络 预报模型

气象条件是导致呼吸系统疾病发病的主要诱因之一,国内外一些学者曾对疾病与气象的关系做过研究与分析[1-5],大部分都采用传统的统计方法,其判别分析往往对数据的分布有各种假设条件的要求。不满足这些条件时,要对原始数据作变量变换(包括如何使非线性关系变换为线性关系),而实际上选择哪一种函数往往很难决策,可能要用到较复杂的统计方法。而BP神经网络作为一个非线性的数学模型,与传统统计方法相比不需要精确的统计模型,尤其善于处理复杂模型的映射关系,不需要知道数据的分布形式,且具有一定的容错性,这为处理模糊的、数据不完全的、模拟的、不精确的模式识别提供了一个全新的途径。笔者旨在通过大量样本的医学资料与同期气象因子的相关性分析,找出影响呼吸系统疾病死亡人数的关键气象指标。尝试利用人工神经网络(artificial neural network,ANN)方法建立呼吸系统疾病死亡人数预报模型,为医疗气象预报提供科学参考。

资料与方法

1.死亡病例及气象资料来源

呼吸系统(J)的病历资料取自南京市疾病预防控制中心收集的南京市区及10 km范围之内郊区2004年1月1日至2009年12月31日所有死亡病例资料。疾病变量分类按照疾病和有关健康问题的国际统计分类(WHO 2007第10次修订版)ICD-10编码的呼吸系统疾病死亡(J00-J99)进行分类。呼吸系统共12736个死亡病例。

气象资料来源于中国气象科学数据共享服务网中中国地面气象资料南京站的2004-2009年的日均气象资料,包括日最高(低)气温(℃)、日平均气温(℃)、日最高(低)气压(hPa)、日平均气压(hPa)、日平均相对湿度(%)和日平均风速(m/s)等。

2.研究方法

(1)呼吸系统疾病死亡人数与气象因子的相关性分析

根据2004-2009年每年呼吸系统疾病死亡人数的发病资料,以七天为单位计算每七天的发病总人数,并每次向前递推一天进行滑动求和处理,从而得到2004-2009年每七天发病总人数的数据。同时对同期的气象数据进行七天滑动平均处理,从而得到2004 -2009年每七天的气象指标的数据。通过散点图的散步形状和疏密程度判断呼吸系统疾病死亡人数与不同气象因子的相关趋势和相关程度,如果基本呈线性,则用Pearson秩相关分析方法,否则采用Spearman秩相关分析方法建立各气象要素与呼吸系统疾病死亡人数的关联性。找出与呼吸系统疾病死亡人数相关性较大,且相关系数具有统计学意义的气象指标。

七天的气象指标包括:平均气压(PM,hPa)、平均最高气压(PH,hPa)、平均最低气压(PL,hPa),气压变化幅度(PV)、气压平滑指数(PSI)、平均气温(TM,℃)、平均最高气温(TH,℃)、平均最低气温(TL,℃)、气温变化幅度(TE,℃)、气温相对变化幅度(TRE,℃)、气温平滑指数(TSL)、平均湿度(HM,%)、温湿指数(THI)[6-7]、风寒指数(WCI)[8-9]和着衣指数(ICL)[10]。平滑指数(SI)、温湿指数(THI)、风寒指数(WCI)、着衣指数(ICL)的计算公式如下:

式中,μ:七天的平均值;δ:七天的标准差;WM:平均风速(m·s-1),H代表人体代谢率的75%,单位:W·m-2,本文取轻活动量下的代谢率,此时H=87W·m-2;a表示人体对太阳辐射的吸收情况,本文取0.06;R表示垂直阳光在单位时间单位面积土地上所接收的太阳辐射(W·m-2);α是太阳高度角,取平均状况且随纬度变化。气象指标中的气象因素的平均值、最高、最低值主要描述了气象条件的基本状态,即对其进行静态描述;气象因素的变化幅度、平滑指数主要描述了气象条件的变化过程,变化幅度越大、平滑指数越低,其变化程度就越大,即对其进行动态描述;考虑到气象因素在舒适度较好的天气下变化和在舒适度不好的天气下变化对人体的影响不同,引入了相对变化幅度、温湿指数、风寒指数和着衣指数,在温度相对变化幅度计算公式中,假设24.4℃为人体的最佳舒适温度。三种舒适度指数均是通过一系列气象要素的综合,来反映人体与周围环境的热量交换情况。

(2)建立人工神经网络预测模型

①数据归一化处理。为了满足人工神经网络节点函数的条件和提高神经网络的训练速度,需要对其样本进行归一化处理,将其归一化到0.1~0.9,其公式为:

其中xij为归一化后的自变量;Xij为原始变量;min(xij)为自变量Xi中的最小值;max(xi)为自变量Xi中的最大值;i,j分别为自变量序号和样本序号。

②人工神经网络的建立。采用BP神经网络,并通过Matlab7.0软件编程实现[11]。输入层的神经元为15个,即2004-2008年的归一化后的气象指标作为网络输入;输出层的神经元为1个,用2004-2008年归一化后的呼吸系统疾病死亡人数作为网络输出,传递函数为logsig。隐含层为1层,由于隐含层神经元数目没有统一规则,本研究通过一些经验公式和试凑法[12]等方法反复试验,确定隐含层神经元数目为20,传递函数为tansig。因此神经网络结构确定为15 -20-1。

③神经网络的训练与仿真。网络训练函数为trainlm,学习率为0.1,最大训练步数为1000。经BP神经网络算法进行网络学习训练,建立呼吸系统疾病死亡人数与气象因素之间的关系。把2009年归一化后的气象要素作为训练样本,作为输入层添加到已经训练好的网络中,对训练样本进行仿真验证。最后对仿真结果进行反归一化,便可得到2009年呼吸系统疾病死亡人数的仿真值。

3.BP神经网络与统计预报的预测效果评价方法

通过BP神经网络的训练与仿真,最终得出了BP神经网络模型对应的2009年呼吸系统疾病死亡人数的仿真值。统计预报方程(逐步回归方法)是气象学中较为常用的预测方法,其基本原理是运用回归分析原理,采用双检验原则,逐步引入和剔除自变量而建立最优回归方程的优选方法。该方法要求分析数据服从正态分布和方差齐性。因此在进行逐步回归方法前,对采集数据相关变量进行正态检验,运用指数变换对不服从正态分布的数据进行正态转换。另外,利用Eviews软件中的广义最小二乘函数消除时间序列数据存在的自相关性。最终建立了以呼吸系统疾病死亡人数为因变量,其他影响因素为自变量的多元回归方程,并用该方程预测2009年呼吸系统疾病死亡人数的仿真值。

为了较为客观地评价BP神经网络和统计预报对呼吸系统疾病死亡人数的预测能力,分别把两种方法所得的2009年呼吸系统疾病死亡人数的仿真值与实际值进行对比,通过计算各自的平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、均方误差(MSE)和预测准确度(P)等指标,比较两种模型的预测效果。

式中:Yt是实际值;yt是仿真值;n是样本个数。

预报结果及拟合效果分析

1.呼吸系统死亡人数与气象要素的关系

通过计算呼吸系统疾病死亡人数与各种气象指标的相关性,我们发现气象因子对呼吸系统疾病死亡人数的影响较显著。呼吸系统疾病死亡人数与平均温度(r=-0.717)、最高温度(r=-0.715)、最低温度(r=-0.705)呈显著地负相关;与平均气压(r=0.614)、最高气压(r=0.623)、最低气压(r=0.604)呈显著地正相关;与湿度(r=-0.153)呈负相关;与温变幅(r=0.124)和压变幅(r=0.334)呈正相关;与气温平滑指数(r=-0.403)和气压平滑指数(r=0.260)呈显著地负相关;这表明温度越低、气压越高、湿度越小、气象因素的变幅越大、平滑指数越小,呼吸系统疾病死亡人数越多。即寒冷干燥的天气,再遇到急剧大幅度降温,较容易诱发呼吸系统疾病。

人体舒适度是以人类机体与近地大气之间的热交换原理为基础,从气象角度评价人类在不同气候条件下舒适感的一项生物气象指标。温湿指数、风寒指数和着衣指数是最为常用的三项评价指标。呼吸系统疾病死亡人数与温湿指数(r=-0.711)呈显著地负相关,与风寒指数(r=0.719)和着衣指数(r=0.718)呈显著地正相关,这些均表明人体感觉寒冷极不舒适时,会导致呼吸系统疾病死亡人数的增加。

2.预报结果及分析

通过采用改变输入层节点数、隐含层节点数、样本数和误差精度等4种方案进行实验。最终将隐含节点数定为20(隐含层上神经元的个数),训练精度为0.005时,训练了26步达到目的,最终误差为0.00485402。此时网络稳定性达到最好,且预报和拟合效果也比较好。图1为网络最终训练结果,它给出了网络训练所需的步数、训练精度及训练的最终误差。

3.历史样本拟合效果

利用训练好的网络对2009年独立样本进行预测,网络模拟预报结果如图2所示。从图中可以看出仿真值与实际值较为接近。

通过计算BP神经网络模型和统计预报方程对呼吸系统疾病死亡人数的仿真值,将神经网络预报模型与统计预报方法所得预报量的历史拟合率、预报率(具体计算过程略)进行比较。从表1可以得出,无论是MAE、MAPE还是MSE,BP神经网络的预报误差值均小于统计预报方程预报的误差值,同时BP神经网络的预测准确率(80.11%)高于统计预报方程的预测准确率(72.23%)。这表明利用BP神经网络方法对呼吸系统疾病死亡人数进行预测具有一定的可行性和理论价值。

图1 最终训练结果

图2 BP网络计算南京呼吸系统疾病死亡人数拟合曲线

表1 神经网络方法与统计预报方法拟合率和预报率比较

讨论与结论

传统的统计方法建立的预测方程所涉及的气象因素比较少,只考虑了一些基本因素,而本研究采用BP神经网络模型所考虑的气象指标多达15个,不仅对影响呼吸系统疾病死亡的天气条件描述比较全面,而且还加入了与人体实际感受密切相关的三种人体舒适度气象指标。从而建立了有针对性的个体化预报模型,达到了较好的预测效果。

人工神经网络擅长处理知识背景不是很清楚、模糊、随机的大通量信息,特别是非线性系统。凭借其分布式信息存储方式、并行式信息处理方式、强大的容错性、自组织、自学习和自适应能力,较好地解决了本研究中变量间不能用精确函数表达这一问题。同时在利用BP神经网络模型对呼吸系统疾病死亡人数的预测研究中,只需选择好输入和输出,剩下的事全部由神经网络来完成,结果表明该方法简便快捷、预测效果可靠。

本研究中基于BP神经网络模型建立的呼吸系统疾病死亡人数预测模型为15-20-1(即有15个输入、20个隐含节点和1个输出),训练精度为0.005,训练了26步达到目的,最终误差为0.00485402,预测准确率达到80.11%以上,比统计预报的预报准确率(72.23%)要高,这说明把神经网络应用到呼吸系统疾病死亡人数的预报中具有一定的可行性和理论价值。

为了进一步提高对呼吸系统疾病死亡人数的预测效果,考虑到气象因素只是疾病的一个诱发因素,因此可以在网络输入层添加性别、年龄、既往病史等病人的个体因素以及环境因素,即选择与呼吸系统疾病死亡人数相关的关键气象指标、环境指标和个体因素共同作为网络输入,建立新的预测模型,从而达到更为准确的预测。

1.陈正洪,杨宏青,肖劲松,等.武汉市呼吸道和心脑血管疾病的季月旬分布特征分析.数理医药学杂志,2000,13(5).

2.刘佳,蔡亚平.2002-2009年中国大陆城乡居民死因分析.中国卫生统计,2012,29(4):510-513.

3.程德明,董美阶.宜昌市城区居民呼吸系统疾病死亡率分析.中国卫生统计,2002,19(1):132-135.

4.曾韦霖,马文军,刘涛,等.构建气温-死亡关系模型中温度指标的选择.中华预防医学杂志,2012,46(10):946-951.

5.黄明北,李子渊,白友仙,等.气象因素与急性脑血管病的相关研究.气候与环境研究,1999,4(1):35-39.

6.Terjung WH.Physiologic climatesof the contentious United States:a bioclimatic classification based on man.Annual Association o f Applied Geochem istry,1966,5(1):141-179.

7.吕伟林.体感温度及其计算方法.北京气象,1998,(1):23-25.

8.Thom EC.Cooling degree days.Air Condition:Heat Ventilation,1958,55(3):65-72.

9.David DH.Handbook of Applied Meteorology.New York:John W iley&Sons.Inc,1985,6(7):778-811.

10.Terjung WH.World pattern of the distribution of monthly com fort index.International Journal of Biometeorology,1968,2(3):119-151.

11.葛哲学,孙志强编著.神经网络理论与MATLAB R2007实现.北京:电子工业出版社,2008.

12.范佳妮,王振雷,钱锋.BP人工神经网络隐层结构设计的研究进展.控制工程,2005,12(10):105-109.

(责任编辑:丁海龙)

Study on Artificial Neural Network Prediction for Respiratory System Death Toll

Zhang Ying,Shao Yi,Wang Shigong,et al(KeylaboratoryofSemi-aridClimateChange,MinisterofEducation,CollegeofAtmosphericSciences,LanzhouUniversity(730000),Lanzhou)

ObjectiveUsing the data of respiratory system deaths andmeteorological factorsw ithin the same time from 2004 to 2009 in Nanjing,and analyzed the correlation betweenmeteorological factorswhich include three human com fortable indexes and respiratory system deaths.MethodsThe back-propagation(BP)artificial neutral network(ANN)model was built and evaluated.ResultsThe result showed:a close relationship exists between themeteorological factors and respiratory system deaths,the ANN predictmodel structure was 15-20-1,15 input notes,20 hidden notes and 1 output note.The training precision was 0.005 and the final error was 0.005 after 26 training steps.The results of forecast showed that predict accuracy over 80.11%.ConclusionsCompared w ith statistical forecastingmethods,thismethod is easy to be finished w ith smaller error,and higher ability on respiratory system deaths on independent prediction,which can provide a new method formedicalmeteorology forecast and have the value of further research.

Respiratory system death toll;Meteorological factors;Back-propagation neutral network;Predictmodel

公益性行业(气象)科研专项(GYHY201106034);“中央高校基本科研业务费专项基金”自由探索项目(lzujbky-2012-123)和国家自然科学基金项目(41075103)共同资助。

△通信作者:王式功,E-mail:wangsg@lzu.edu.cn

猜你喜欢
气象神经网络预测
无可预测
气象树
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
基于递归模糊神经网络的风电平滑控制策略
选修2—2期中考试预测卷(A卷)
《内蒙古气象》征稿简则
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
大国气象