范馨月 王清青
摘要:目的 采用SARIMA、BP神經网络、RBF神经网络及小波神经网络模型对贵州省某专科医院的精神类疾病患者数进行拟合及预测,并比较各类预测模型的预测效果。方法 将贵州省某专科医院2016年1月1日~12月31日HIS系统中精神类疾病的数据作为训练集,建立SARIMA(1,1,1)×(1,1,1)3模型、BP神经网络、RBF神经网络、小波神经网络模型。分别对2017年1月1日~16日精神类疾病患者数进行预测,将2017年1月1日~16日数据作为验证集。分别用3类误差分析指标衡量模型的拟合效果,并比较模型预测的准确性。结果 RBF神经网络模型对该医院精神类疾病患者数的拟合效果优于BP神经网络和小波神经网络模型,平均绝对误差为(1.84×10-7)%,平均相对误差为4.92×10-6,均方根误差为4.74×10-6。3类预测误差平均值分别为23.70%、3.633、93.72。结论 4种模型均能用于医院精神类疾病患者数的预测,但就预测效果而言,小波神经网络模型的各项误差指标均低于其他3种预测模型,小波神经网络模型可作为预防和医院管理的理论依据。
关键词:SARIMA;BP神经网络;RBF神经网络;小波神经网络模型;预测;精神类疾病
中图分类号:R749 文献标识码:B DOI:10.3969/j.issn.1006-1959.2019.12.003
文章编号:1006-1959(2019)12-0006-04
Abstract:Objective To fit and predict the number of mental illness patients in a specialized hospital in Guizhou Province by SARIMA, BP neural network, RBF neural network and wavelet neural network model, and compare the prediction effects of these types of prediction models. Methods The data of mental illness in the HIS system from January 1 to December 31, 2016 in a specialized hospital in Guizhou Province was used as a training set to establish the SARIMA (1,1,1)×(1,1,1)3 model. BP neural network, RBF neural network, wavelet neural network model. The number of patients with mental illness was predicted from January 1st to 16th, 2017, and the data from January 1st to 16th, 2017 was used as the verification set. The three types of error analysis indicators were used to measure the fitting effect of the model, and the accuracy of the model prediction was compared. Results The RBF neural network model was better than BP neural network and wavelet neural network model in fitting the number of patients with psychiatric diseases. The average absolute error was (1.84×10-7)%, and the average relative error was 4.92×10-6. The square root error is 4.74×10-6. The average values of the three types of prediction errors are 23.70%, 3.633, and 93.72, respectively. Conclusion The four models can be used to predict the number of patients with mental illness in hospitals. However, in terms of prediction results, the error indicators of wavelet neural network model are lower than the other three prediction models. The wavelet neural network model can be used as prevention and The theoretical basis of hospital management.
Key words:SARIMA; BP neural network; RBF neural network; Wavelet neural network model;Prediction; Mental illness
随着现代社会的飞速发展,生活节奏日益加快,现代人的精神压力也越来越大,逐渐出现各种各样的精神心理问题。精神卫生问题成为全球性的重大公共卫生问题,也是较为严重的社会问题[1]。目前全球约有4.5亿人受到精神疾病的困扰,而且社会中每4个人当中就有1人有某种程度的精神问题。世界卫生组织预测,到2020年中国精神疾病的负担将占疾病总负担的1/4以上[2]。国内调查显示,精神疾病的患病率在不同地区之间存在较大差异。此外,还有研究表明,癌症和精神疾病有着密切的相关性,癌症患者在诊断、治疗、恢复、死亡等阶段均可出现心理危机,其中焦虑和抑郁性障碍比例高达70%左右[3]。建立合适的预测模型,准确预测区域精神疾病的发生量,尽早采取防控措施,可有效降低精神疾病的发病率。本文基于贵州省某精神病专科医院2016年1月~2017年1月精神病患者数据构建SARIMA模型、BP神经网络、RBF神经网络和小波神经网络模型,对该院精神病患者数据进行预测,并比较4个模型的预测效果,提高监控效率。为积极开展社区防治,规范精神疾病患者管理提供科学依据。
1对象与方法
1.1研究对象 数据来源于贵州省某精神病专科医院HIS系统,选择2016年1月~2017年1月门诊患者的监测数据。门诊患者共166168人,其中精神类疾病患者103910人。
1.2研究内容 对贵州省某专科HIS系统中2016年1月~12月门诊患者监测数据进行分析,在SQL Server 2012中进行数据整理与清洗。建立基于精神类疾病患者数的SARIMA模型、BP神经网络、RBF神经网络和小波神经网络模型,预测2017年1月1日~16日精神类疾病患者数,通过评价指标比较预测模型的预测效果。并进一步预测2017年1月17日~31日精神类疾病患者人数。
1.3方法
1.3.1 乘积SARIMA(p,d,q)×(P,D,Q)s模型 传统的ARIMA模型在医学统计中已经得到了广泛的应用[4,5]。乘积季节性差分自回归滑动平均模型[SARIMA(p,d,q)×(P,D,Q)s]模型ARIMA模型之一,这里(p,d,q),(P,D,Q)s分别代表非季节性和季节性自回归项、差分和移动平均项系数,s为季节性指数。由于精神病患者就医具有季节性和随机性的特殊性,用SARIMA(p,d,q)×(P,D,Q)s模型拟合时间序列可达到较好的预测效果。
1.3.2 BP神经网络模型 BP神经网络是一种多层前馈神经网络,从模拟生物神经网络出发,包含输入层、输出层、隐含层和输出层。BP神经网络具有并行分布处理、高度容错能力、分布存储及学习能力,能充分逼近复杂的非线性关系等特点[6]。加上BP神经网络对数据无假设性条件,适合处理非线性问题。BP神经网络利用信号传递前向,误差传递反向的方法,通过不断调整网络权值和阈值,使得神经网络预测达到较好的预测效果。
1.3.3 RBF神经网络模型 径向基函数神经网络是一类非常重要的神经网络,具有结构简单、收敛速度快、逼近能力强、网络结构易于调整的优点,其在神经网络的应用广泛程度仅次于BP神经网络[7]。对于BP网络,已经证明了三层网络结构能够逼近任意连续函数,而RBF神经网络能以任意精度逼近任意非线连续函数。到目前为止,已经提出了许多种RBF网络的训练算法,RBF神经网络的优良特性使其成为替代BP网络的另一种神经网络,越来越广泛地应用于各个领域。
1.3.4 小波神经网络模型 小波神经网络是非平稳信号分析和处理的强有力工具。小波神经网络具有自学习、自组织、容错性储存等一般神经网络所具有的优点外,还克服了Fourier变换不能作局部分析的缺点,其强大的非线性映射能力使它在预测领域具有很大的优势。小波神经网络的结构和表达式与BP网络基本一致,不同之处主要是BP网络隐含层神经元的激励函数取Sigmoid函数,而小波神经网络采用满足可允许条件的小波函数为激励函数,小波函数一般取Morlet函数或者Mexican Hat小波函数,使得在调整权值和小波参数时,采用算法也不同。此外,还有的学者经过大量实验证实经验模态分解具有类似小波变换中的二进滤波器的特性[8]。
1.4数据分析 本研究在SQL server 2012中进行数据处理,使用Matlab 2017a进行统计分析,以2016年1月~2016年12月HIS系统中的精神类疾病患者数据作为训练样本建立SARIMA、BP神经网络、RBF神经网络和小波神经网络拟合模型,预测2017年1日~16日医院精神类疾病患者数,模型精度评价采用平均绝对误差百分比(MAPE)、平均相对误差绝对值(MRE)和均方根误差(RSE)。
2结果
2.1医院精神类疾病患者数分布特点 精神类疾病患者包括诊断为精神分裂、双向情感障碍、自闭症、抑郁症、强迫症等。2016年1月1日~2017年1月16日该专科医院精神类疾病患者共计103910人,占该专科医院患病人数62.50%,每天患精神类疾病患者数量及占该医院总疾病比例资料见表1,按繪制时序图见图1,春季是精神类疾病的高发季节,较下半年而言,患者数量较多,几乎是秋冬季节的两倍。该时间序列是一个非平稳序列,并且有季节性趋势。
2.2模型识别 由于原序列呈现出周期性季节波动的非平稳序列特点,因此需要建立混合效应SARIMA(p,d,q)×(P,D,Q)s。一阶差分后的医院精神类疾病患者的自相关系数(ACF)和偏自相关系数(PACF)图见图3。差分后通过ADF检验,确定ARIMA(p,d,q)×(P,D,Q)s中的 和D分别为1和1。此时残差序列自相关函数和偏相关函数在可信区间内,AIC数值越小。通过实验数据分析,自回归部分阶数和移动平均阶数可以选取p=1,q=1,P=1,Q=1。综上得出的最优预测模型为ARIMA(1,1,1)×(1,1,1)3。基于和SARIMA同样的历史数据输入,采用BP神经网络和RBF神经网络模型对2016年1月1日~年12月31日该专科医院精神类疾病患者数进行拟合,取最大神经元个数为3000个,扩展速度为3,误差为0.00001。图3和图4中,三种神经网络均能拟合该院精神类疾病患者数。其中,RBF神经网络训练效果最好,具体拟合误差指标见表2。
由图3和表2可以看出,RBF神经网络模型和其他两个神经网络模型相比,能较好地拟合该专科医院患精神类疾病发病数,平均绝对误差为(1.84×10-7)%,平均相对误差为4.92×10-6,均方根误差为4.74×10-6,对原始数据的拟合效果优于BP神经网络和小波神经网络模型。
2.3模型诊断 通过SARIMA(1,1,1)×(1,1,1)3、BP神经网络、RBF神经网络和小波神经网络模型,预测2017年1月1日至16日精神类疾病患者数,并和实际值计算评价指标进行对照检验(见表3)。由表3可见,训练的四种预测模型均可作为精神类疾病患者数的预测,就预测效果而言,小波神经网络模型的各项误差指标均明显低于SARIMA(1,1,1)×(1,1,1)3模型,BP神经网络、RBF神经网络和小波神经网络模型,可作为预防和精神类疾病发作或爆发的理论依据。
3讨论
随着医院信息化和现代医学的发展,医院HIS数据越来越丰富和完善,特殊疾病的患病率预测在医院管理工作中起到举足轻重的作用,可将被动管理转换为主动预防。大多数精神类疾病的病因和发病机理不清楚,体征和实验室检查无特异性,未识别率高[9]。目前,精神类疾病导致的残疾已成为世界性主要问题,通过运用数学建模对其进行挖掘,建立医院特殊疾病预测预报体系,准确预测医院精神类疾病患者数的未来变化情况,对于医院感染的预防与控制将起到决定性的作用。
在之前的研究中,有文献建立ARIMA模型和BP神经网络模型进行疾病预测,本研究中以RBF神经网络和小波神经网络模型是对精神类疾病患者数预测建模的探索。在本研究中,采用SARIMA模型和神经网络模型基于贵州省某专科医院2016年1月~12月医院精神类疾病患者数据进行训练,然后对2017年1月1日~16日患者数作预测。SARIMA和神经网络训练模型均能用于具有该非平稳且具有季节性时间序列的预测,SARIMA模型对季节性有一定的要求,其参数如季节参数,自回归阶数的选取需多次实验优化选取;三层的BP网络结构能逼近任意连续函数,可用于非平稳非线性序列的预测;在建立RBF神经网络模型时应注意样本数据拟合和预测模型进行外推时的估计误差,即残差的平方和要尽可能小,RBF神经网络能以任意精度逼近任意非线连续函数。但实际应用中,由于序列的变化有很多随机性及非线性性,过多地强调对样本集的拟合精度可能导致将不是变化趋势的随机因素也作为趋势变量,进而导致外推精度变差而发生过拟合。MAPE、MRE、RSE三种指标显示,小波神经网络尽管拟合效果不如RBF神经网络,但就预测效果而言,三项指标分别为10.59%、1.084、89.07,均小于BP神经网络模型、RBF神经网络与SARIMA模型,有较好的预测效果。但是,预测的结果仍存在一定误差,可能与样本数据较少,资料所限有关。医院精神类疾病患者数影响因素众多,比如具有随机时变性、以及患病不主动就医等情况,要对其做出准确的预测,必须有完备的资料。因此,在后续研究中,应在不断积累资料的同时扩大训练样本,对几种模型的参数做出相应的优化,从而不断提高模型的预测精度,以期达到更好的预测效果。并在实验中将患者的家庭情况,生活习性等因素考虑进来,建立患者的电子病历,提前预测患者发病时间,做好防护措施。
参考文献:
[1]李向青,杜敏霞,李荣.2005-2012年中国精神疾病死亡率的流行病学分析[J].现代预防医学,2015,42(1):4-7.
[2]Desjarlais R,Eisenberg L,Good B,et al.World Mental Health[M].New York:Oxford University Press,1995.
[3]贾韵博,张阳,韩芳.癌症相关基因与精神疾病的关联[J].现代肿瘤学,2017,25(21):3527-3530.
[4]毛圆圆,周丽红,刘丽,等.ARIMA模型在医院流产数时间趋势分析中的应用[J].中国卫生统计,2018,35(1):52-54.
[5]高雅,王伶,吳伟,等.辽宁省手足口病疫情季节性ARIMA模型预测效果评价[J].中国公共卫生,2017,33(10):1482-1484.
[6]周志华.机器学习[M].北京:清华大学出版社,2016.
[7]张怡君,左颖婷,刘近春,等.GA-BP与BP神经网络在医学研究中的应用与比较[J].中国卫生统计,2018,35(2):239-245.
[8]刘振球,严琼,左佳鹭,等.EMD-BP神经网络在传染病发病趋势和预测研究中的应用[J].中国卫生统计,2018,35(1):152-155.
[9]杜召云.精神科护理学[M].北京:人民卫生出版社,2009:41-49.
收稿日期:2019-3-29;修回日期:2019-4-8
编辑/成森