季风转换对深圳地区呼吸系统疾病的影响及预测研究

2024-01-09 03:10吴千鹏李兴荣黄开龙苏春芳王式功
沙漠与绿洲气象 2023年6期
关键词:深圳气象神经网络

吴千鹏,尹 立,李兴荣,孙 羽,黄开龙,苏春芳,王式功*

(1.成都信息工程大学大气科学学院/环境气象与健康研究院,四川 成都610225;2.攀枝花市中心医院气象医学研究中心,四川 攀枝花617000;3.深圳市气象局,广东 深圳518040;4.海南省第二人民医院气候医学研究中心,海南 五指山572299;5.汕头市气象局,广东 汕头515041)

呼吸系统疾病是人体最常见、多发的疾病之一,因其对天气气候变化有着较高的敏感度,致使人体极易患病影响健康,故又被叫做气象敏感性疾病。随着全球气候变化对人类健康产生的影响进一步加剧,呼吸系统等相关气候敏感性疾病发病率增加[1-3]。联合国政府间气候变化专门委员会(Intergovernmental Panel on Climate Change,IPCC)第六次评估报告指出,天气气候变化导致热浪、干旱和洪水等极端气候事件增多、天气骤变加剧,相关气象敏感性疾病(呼吸系统疾病等)发病率、死亡率逐年增加[4]。在气候异常变化这一大背景下,天气气候因素很可能会对我国气候敏感人群特别是老人、儿童或患有呼吸系统疾病等人群构成巨大威胁。

天气气候变化是诱发呼吸系统疾病的主要原因之一,即呼吸系统疾病等气象敏感性疾病的发生发展与天气气候有着非常密切的关系[5-11]。在温度、湿度、风速等气象要素相对适宜的情况下呼吸系统疾病发病或死亡人数最少,超出舒适范围人体均有不同程度的不良反应[11-17]。另外,大气污染状况及其变化也会对呼吸系统疾病的发病率及死亡率产生影响[17-21]。基于气象和环境数据与呼吸系统疾病数据间的密切相关性,如何利用这些数据构建较优的呼吸系统疾病预测模型,为呼吸系统疾病医疗气象服务提供一定的科学指导,非常重要。以往研究者倾向于使用回归分析来反映气象要素和敏感性疾病之间的关系[5,22-33],其中被广泛使用的是多元回归和逐步回归。考虑到气象环境条件变化和人体疾病发病间的非线性关系,且存在着一定的滞后效应,被最常应用的模型是广义相加模型(GAM)和分布滞后非线性模型(DLNM)[24-31]。随着科技的进步,机器学习广泛应用于气象领域,目前主要应用于气象观测、数值天气预报、强对流天气识别预警以及卫星资料应用等方面[34-38],同时也应用于对医疗就诊人数的预测[9,10,45]。

深圳作为我国发展最快的一线城市,地处典型的东亚季风气候区,在一年之中,季风在每年4 和9月转换方向[39],季风预示着相关地区气候状况的大转折,对当地工农业生产和人民群众的日常生活产生重要影响。季风转换会对居民健康产生何种影响?目前尚未见到国内外相关报道。因而这是非常值得研究的问题。健康气象服务作为未来气象服务领域拓展的重点方向之一,已将其列入2021 年11 月发布的我国气象事业发展“十四五”规划中,提出要建立疾病发生发展风险预测模型。基于贯彻落实国家大健康政策及广大民众疾病预防的现实需求,研究构建呼吸系统疾病等气象敏感性疾病预测模型显得尤为迫切。开展季风转换对呼吸系统疾病的影响研究,既是践行国家全民大健康战略实施的具体行动,又有重要科学价值,意义非凡。本文利用深圳地区风向风速等资料研究季风及其转换对呼吸系统疾病的影响,基于不同季风影响期间内,下呼吸道感染疾病均对气象和环境条件敏感性更强,利用BP 人工神经网络和LSTM 网络方法尝试建立当地下呼吸道感染疾病发病风险预测模型,以期为深圳市呼吸系统疾病预防提供科学依据和技术支持,同时也可丰富季风及其转换背景下的医学气象学理论内涵。

1 资料与方法

1.1 资料来源

呼吸系统疾病日就诊资料来源于深圳市龙华区观澜中心医院2015 年1 月1 日—2016 年12 月31日每日就诊记录,该院为深圳市三级甲等医院,位于中心城区,具有一定的代表性。气象数据来自中国气象科学数据共享平台提供的国家基准站常规气象数据,包括气温、气压、相对湿度、水汽压等;污染数据来自中国监测网(https://www.aqistudy.cn),包括PM2.5、PM10、CO、SO2、NO2等污染物质量浓度。

1.2 研究方法

1.2.1 相关分析

不同环境要素和当地呼吸系统疾病的就诊人数之间有明确的相关性,描述变量间的相关程度,最常用的是Spearman 秩相关系数rs,本文利用Spearman相关分析环境因子与当地医院就诊人数之间的相关程度。计算方法为:

式中,rs为Spearman 秩相关系数,n 为样本量个数,其中假定原始数据xi(环境因子)、Yi(疾病就诊人数)已按时间顺序进行排列,记为原数据xi、Yi在排列后数据所在位置的秩次之差

1.2.2 长短期记忆网络(LSTM 网络)

气象要素对呼吸系统疾病发生的影响具有一定的滞后性[24-31,40-44],大多数气象要素的滞后为1~3 d。LSTM 网络(Long-Short Term Memory)由于其独特的设计结构,适合处理和预测时间序列。

LSTM 网络是循环神经网络的一个变体,可以有效地解决简单循环神经网络(RNN)的梯度爆炸或消失问题[45-46]。这种网络由输入层、输出层和之间若干层(一层或多层)隐含层构成,主要改进在2 个方面:一是引入一个新的内部状态专门进行线性的循环信息传递,同时(非线性地)输出信息给隐藏层的外部状态。二是引入门控机制(Gating Mechanism)控制信息传递的路径,总共有三个“门”:输入门(控制当前时刻的候选状态有多少信息需要保存)、遗忘门(控制上一个时刻的内部状态需要遗忘多少信息)和输出门(控制当前时刻的内部状态有多少信息需要输出给外部状态)。

1.2.2.1 归一化处理

样本数据量纲、单位往往不同,进而会影响数据分析的结果。为消除样本数据之间的量纲影响、消除奇异样本数据导致的不良影响,且为满足节点函数要求,提高网络训练速度和收敛性,归一化处理公式为:

式中:xij为归一化后的值,Xij为原始值,ximin为自变量Xi中的最小值,ximax为自变量Xi中的最大值;i、j分别为自变量序号和样本序号。

1.2.2.2 隐藏层中的节点个数

由于学术界到目前为止没有明确的理论规定隐藏层中的节点个数,通常情况下使用以下公式确定节点个数:

式中:m 为隐藏层节点数,n 为输入层节点数,l 为输出层节点数;α 为调节常数,为1~10。根据文中所选变量的个数,可以知道输入节点为11 ,输出节点为1,公式(3)可知隐藏节点为4~14。运用1 层LSTM模型,试验并确定从4~14 个节点所对应的误差率及误差平方和,并以此来判断模型的偏离程度。进而选取合适的隐藏层节点个数。

1.2.2.3 网络结构

学习率设置成0.001,权重W*、U*与偏移向量b*,以上参数全部实现初始化随机应用。为了更新权重与偏差度,需要不断的训练序列来实现。选用平均绝对误差(MSE)表示所用LSTM 模型中损失函数的修正误差,并使用Adam 优化器,促使网络实现最优化学习。

1.2.3 试预报模型的评价

在构建呼吸系统疾病预测模型、进行预测模型优度检验时,主要使用平均绝对误差(MAE)、平均绝对百分比误差(MAPE)、均方根误差(RMSE)和预测准确度(P)等指标对预测模型的效果进行评价,其中Yi是实际值,yi是预测值,n 是样本数,计算方法如下:

2 结果分析

2.1 呼吸系统疾病就诊人数逐月与季节分布

通过整理深圳地区2015 年1 月1 日—2016 年12 月31 日呼吸系统疾病数据资料,发现每年2 月深圳地区呼吸系统疾病就诊人数最少,这与春节期间深圳务工人员返乡、外流人口较多有关联。因此在分析深圳地区呼吸系统疾病就诊人数的逐月分布时,剔除了2 月原始呼吸系统疾病数据,利用2 月前后2 个月的呼吸系统疾病数据对2 月的疾病数据进行订正。图1a 为订正后2015—2016 年深圳地区呼吸系统疾病就诊人数的年内逐月变化。深圳总呼吸系统疾病日均就诊人数3 月最多,为288 人/d,总呼吸系统疾病日均就诊人数8 月最少(187 人/d),3 月下呼吸道感染就诊人数最多,6 月上呼吸道感染就诊人数最多。虽然各类呼吸系统疾病就诊人数呈现一定的波动性,但也有相同之处:即2—3 月总呼吸系统(ICD10 编码J00-J99)、上呼吸道感染(简称“上感”,ICD10 编码J00-J04,J06)和下呼吸道感染(简称“下感”,ICD10 编码J10,J12,J15,J16 等)就诊人数有明显的增多,可能与冬季风持续影响及其累积效应有关,季节交替就诊人数明显增加,由于季节变换时气温、湿度等气象条件出现突变,也可能是春节后深圳市人口增多的缘故。图1b 中填色部分对应月(冬季1 月、秋季11 月、春季3 月)分别为辽宁北票、北京和深圳呼吸系统疾病高发月,北票和北京对呼吸系统疾病为冷效应,深圳为热效应,2—3 月北票和北京在季风转换前升温快,而深圳升温慢,回暖弱,所以北票和北京在秋、冬季呼吸系统疾病有峰值,深圳冬季风向夏季风转换前呼吸系统疾病发病出现峰值。

图1 深圳地区呼吸系统疾病日均就诊人数和升温率的逐月变化

深圳地处东亚季风气候区,其风向会随着冬季风、夏季风的控制及其转换而变化。其中,由冬季风转换为夏季风的过渡期一般发生在4 月,夏季风转换为冬季风的过渡期一般发生在9 月[39]。

本文综合2015—2016 年各月深圳平均10 min风速风向特征和各月主导风控制天数(表1)研究发现,2015—2016 年深圳地区季节转换月分别出现在4 和9 月,其中,5—8 月主要受夏季风(偏南风)控制,10 月—次年3 月主要受冬季风(偏北风)控制。对照图1 可看出,夏季风控制期间深圳地区总呼吸系统疾病就诊人数一直减少,反映出中医理论阐述的“春夏为阳”的养生气候特征;相反,冬季风控制期间深圳地区总呼吸系统疾病就诊人数一直在增加,反映出中医理论中论述的“秋冬为阴”的气候特征,此时需加强疾病预防。另外,上感与下感对季节转换的响应略有差异。

表1 深圳地区2015—2016 年各月主导风控制天数占比

综合图1 和表1 可知:(1)每年9 月开始的冬季风对当地居民的冷胁迫效应会使相关人群总呼吸系统疾病发病人数波动式增加,直至次年冬季风为夏季风转换前的3 月发病人数达到峰值。(2)每年4 月冬季风开始转换为夏季风,整个夏季风控制期间对当地居民的温热效应使相关人群总呼吸系统疾病发病人数呈波动式减少态势,直至夏季风转换为冬季风之前的8 月发病人数达到谷值,比峰值减少35%。(3)去掉季风风向转换月(4 和9 月),深圳地区夏季风主导期间总呼吸系统疾病日均就诊人数比冬季风主导期间多7.26%。但上感与下感又有差异,其中夏季风主导期间上感日均就诊人数比冬季风主导期间多22.93%,下感就诊人数夏季风主导期间比冬季风主导期间少5.58%。

深圳地区3 月就诊人数表现出较为明显的阶段性爆发,图2 为2016 年3—4 月深圳地区24 h 变温与呼吸系统疾病就诊人数逐日变化。深圳地区24 h变温与总呼吸系统疾病就诊人数逐日变化关系密切,相邻2 d 内气温变化趋势相反(第一天升温第二天降温或第一天降温第二天升温)呼吸系统疾病就诊人数都会增加。

图2 2016 年3—4 月深圳地区冬季风向夏季风转换期间24 h 变温与呼吸系统疾病就诊人数逐日变化

2.2 深圳地区呼吸系统就诊人数与气象和环境要素的相关分析

表2 列出了2015—2016 年不同季风影响期间深圳地区呼吸系统就诊人数与各气象环境因子变量之间的相关系数。气象要素对呼吸系统疾病的发生有较为显著的影响,整体来看,下感就诊人数与气象环境因子变量间的相关性更强。气压和气温与下感患病人数的相关性最好,水汽压与下感患病人数相关性次之。下感就诊人数与气压呈显著正相关,与气温、水汽压和风速呈显著负相关。下感发病人数还与各污染物浓度呈显著正相关。

表2 深圳地区呼吸系统发病人数与主要环境因子的Spearman 相关

2.3 深圳地区下感风险预测模型

因研究区域下感就诊人数与环境气象要素间的相关性更强,即下感发病对气象和环境条件更敏感,且已有较多新的方法构建过上感风险预测模型[10,26],所以本文着重研究下感风险预测模型。夏季风控制期间内下感就诊人数预报方程使用的气象和环境要素为:平均气温、平均最高气温、平均最低气温、平均气压、平均最高气压、平均最低气压、水汽压、最大风速、极大风速、PM2.5、PM10、SO2,冬季风控制期间内下感疾病就诊人数预报方程使用的气象和环境要素为:平均气温、平均最高气温、平均最低气温、平均气压、平均最高气压、平均最低气压、水汽压、最大风速、PM2.5、PM10、SO2、NO2、CO。气象要素对呼吸系统疾病发生的影响具有一定的滞后性[28,31-33],大多数气象要素滞后为1~3 d,对疾病数据和气象数据进行滑动平均处理,因空气污染因子对呼吸系统疾病发生的影响是即时效应[15],所以未对污染数据作平滑处理。

深圳地区季风风向由冬季风(偏北风)转为夏季风(偏南风)后,深圳地区受夏季风(偏南风)影响期间下感就诊人数大体上随时间一直减少,深圳地区季风风向夏季风(偏南风)转为冬季风(偏北风)后,深圳地区受冬季风(偏北风)影响期间(剔除2 月的数据)的下感就诊人数随时间推移一直增多,因此本文构建下呼吸道疾病感染风险预测模型时,大致划分为2 个时间段:夏季风影响期间(4—8 月)和冬季风影响期间(9—12 月、1 和3 月)。每年2 月呼吸系统疾病就诊人数为最小值,这很可能与春节期间外来人口返乡、加之流动人口也大幅度减少等有关,因此后续在构建预测模型时将2 月相关数据剔除,以便更好地排除其他人为因素干扰,抓取典型的自然气候影响特征分析主要趋势,利于提高模型的学习效果、改善其预报准确度。

2.3.1 夏季风影响期间下感风险预测模型

2.3.1.1 BP 人工神经网络预测模型

将总样本归一化处理后的80%作为输入、对应的就诊人数作为输出建立BP 神经网络预测模型,输入层神经元个数为12,输出层神经元个数为1,传递函数选择Purelin。隐含层为1 层,通过经验公式和试凑法等确定隐含层神经元数目为6,传递函数为Logsig。深圳下感疾病就诊人数的神经网络预测模型结构为12-6-1,训练精度为0.001。此时网络稳定性达到最好,试预报和拟合效果也较好。经BP 神经网络算法进行网络学习训练,建立下感人数与空气污染物浓度的关系。把总样本归一化后剩余的20%样本作为验证样本输入到已经训练好的网络输入层中,对验证样本进行仿真验证。对仿真结果进行反归一化,得到下感就诊人数验证样本的仿真值(图3)。对试预报结果进行统计分析,检验试预报方程效果:平均绝对误差MAE 为14.72,平均绝对百分比误差MAPE 为12.04%,均方根误差RMSE 为21.93,预测准确率P 为87.89%。

图3 深圳地区夏季风影响期间下感疾病就诊人数的模拟值与实际值拟合曲线(BP 网络)

2.3.1.2 LSTM 网络(长短时记忆神经网络)

将总样本归一化处理后的80%作为输入、对应的就诊人数作为输出建立LSTM 神经网络预测模型,夏季风期间输入层神经元个数为12,输出层神经元个数为1,隐含层为1 层,运用1 层LSTM 模型,试验并确定从4~14 个节点所对应的误差率及误差平方和,并以此判断模型的偏离程度,进而确定隐藏层节点个数为9。经LSTM 神经网络算法进行网络学习训练,建立下感疾病就诊人数与环境要素的关系。把总样本归一化后剩余的20%样本作为验证样本输入到已经训练好的网络输入层中,对验证样本进行仿真验证。对仿真结果进行反归一化,得到下感疾病就诊人数验证样本的仿真值(图4)。对试预报结果进行统计分析,检验试预报方程效果为:平均绝对误差MAE 为10.27,平均绝对百分比误差MAPE 为8.47%,均方根误差RMSE 为13.21,预测准确率P 为91.56%。

图4 深圳地区夏季风影响期间下感疾病就诊人数的模拟值与实际值拟合曲线(LSTM 网络)

2.3.2 冬季风影响期间下感风险预测模型

2.3.2.1 BP 人工神经网络预测模型

输入层神经元个数为13,输出层神经元个数为1,传递函数选择Tansig。隐含层为1 层,通过经验公式和试凑法等确定隐含层神经元数目为6,传递函数为Logsig。深圳下感疾病就诊人数的神经网络预测模型结构为13-6-1,训练精度为时0.001。此时网络达到最好,试预报和拟合效果也较好。经BP 神经网络算法进行网络学习训练,建立下感人数与环境要素的关系。把总样本归一化后剩余的20%样本作为验证样本输入到已经训练好的网络输入层中,对验证样本进行仿真验证。对仿真结果进行反归一化,得到下感就诊人数验证样本的仿真值(图5)。对试预报结果进行统计分析,检验试预报方程效果为:平均绝对误差MAE 为20.55,平均绝对百分比误差MAPE 为16.36%,均方根误差RMSE 为29.84,预测准确率P 为82.33%。

图5 深圳地区冬季风影响期间下感疾病就诊人数的模拟值与实际值拟合曲线(BP 神经网络)

2.3.2.2 LSTM 网络(长短时记忆神经网络)

将总样本归一化处理后的80%作为输入、对应的就诊人数作为输出建立LSTM 神经网络预测模型,输入层神经元个数为13,输出层神经元个数为1,隐含层为1 层,运用1 层LSTM 模型,试验并确定从4~14 个节点所对应的误差率及误差平方和,并以此来判断模型的偏离程度,进而确定隐藏层节点个数为6 个。经LSTM 神经网络算法进行网络学习训练,建立下感疾病就诊人数与环境要素的关系。把总样本归一化后剩余的20%样本作为验证样本输入到已经训练好的网络输入层中,对验证样本进行仿真验证。对仿真结果进行反归一化,得到下感就诊人数验证样本的仿真值(图6)。对试预报结果进行统计分析,检验试预报方程效果为:平均绝对误差MAE 为17.87,平均绝对百分比误差M APE 为16.22%,均方根误差RMSE 为24.31,预测准确率P为84.64%。

图6 冬季风影响期间下感疾病就诊人数的模拟值与实际值拟合曲线(LSTM 网络)

深圳地区受夏季风控制期间2 种预报模型的预报结果均好于受冬季风控制时段,这与冬季风控制时气象因子和就诊人数变化幅度较大有关。

2.3.3 两种模型的对比与评价

为客观评价2 种模型对深圳地区下感疾病就诊人数的预测能力,将两种模型的预报效果进行比较(表3),与BP 神经网络对比,LSTM 网络的平均绝对误差和平均绝对百分比误差更小,预测准确度更高,预测模型精度略胜一筹,总体上LSTM 网络预测模型表现更优。

表3 2 种预测模型对比

3 结论

(1)2015—2016 年深圳总呼吸系统疾病日均就诊人数3 月最多(288 人/d),8 月最少(187 人/d),3月下感就诊人数最多,6 月上感就诊人数最多。深圳地区春、夏季为呼吸系统疾病发病高峰期;春季(特别是冬季风向夏季风转换之前的3 月)发病人数最多,初秋时段发病人数最少。上感和下感疾病发病第一高峰期在春季,上感疾病因夏季天气炎热导致高发也不可忽视。

(2)每年9 月开始的冬季风对当地居民的冷胁迫效应使相关人群总呼吸系统疾病发病人数波动式增加,直至次年冬季风向夏季风转换之前的3 月发病人数到达峰值;整个夏季风控制期间对当地居民的热胁迫效应使相关人群总呼吸系统疾病发病人数呈波动式减少态势,直至转换为冬季风主导前的8月发病人数达到谷值,比峰值减少35%。深圳地区夏季风主导期间总呼吸系统疾病日均就诊人数比冬季风主导期间多7.26%,但是上感与下感有差异,其中夏季风主导期间上感日均就诊人数比冬季风主导期间多22.93%,下感日均就诊人数在夏季风主导期间比冬季风主导时段少5.58%。已有研究表明,3 月我国北方地区城市如北京、辽宁北票气温回暖快,发病人数减少得快;本研究表明,深圳3 月气温升温慢且在冬季风向夏季风转换之期,当地发病人数达到峰值,之后开始下降,此现象与北方城市明显不一样,值得对更多南方城市呼吸系统疾病发病情况的年变化进行研究。

(3)下感与气温及水汽压呈负相关关系,与气压呈正相关关系,与气温相关性最好,与气压、水汽压相关性次之,还与污染要素呈显著正相关。与BP 神经网络模型对比,LSTM 网络模型表现更为出色,具有更高的预测精度和泛化能力,对呼吸系统疾病就诊人数预测的准确性更好,可以作为一种新的实用方法为呼吸道疾病发病风险预测提供技术支持。

猜你喜欢
深圳气象神经网络
气象树
《内蒙古气象》征稿简则
深圳欢乐海岸喜茶LAB店
神经网络抑制无线通信干扰探究
大国气象
美丽的气象奇观
深圳
深圳医改破与立
基于神经网络的拉矫机控制模型建立
复数神经网络在基于WiFi的室内LBS应用