纪焕林,张燕婷,罗淦丰,李 克
(1.汕头大学医学院公共卫生与预防医学教研室,广东 汕头 515041;2.中山大学公共卫生学院医学统计与流行病学系,广东广州 510080;3.中山大学公共卫生学院(深圳),广东 深圳 518107)
手足口病是以多种肠道病毒为病原体的传染病,目前已成为全国传染病报告发病率排名前五的丙类传染病[1],对5岁以下的儿童造成了严重的疾病负担[2]。传统的疾病监测系统是通过逐层上报的形式,数据发布上有延迟。近年来,已有不少研究通过挖掘互联网搜索数据,建立数学模型对传染病进行预测[3-4],证明了网络搜索数据对传染病疫情有一定的预测能力。本研究旨在建立一个结合百度关键词搜索指数和全国手足口病发病数的自回归移动平均模型(autoregressive integrated moving average,ARIMA),对手足口病的发病进行监测和预测。
2011—2017年手足口病的发病数据来源于中国疾病预防与控制中心公布的数据(http://www.phsciencedata.cn/Share/),其中2011年1月—2016年12月数据用于模型拟合,2017年1—12月的数据用于模型验证。对应时间的百度关键词搜索指数数据从百度指数官网(http://index.baidu.com)上以月为单位进行收集。
1.2.1 构建综合百度搜索指数 从手足口病的疾病名称、症状、治疗和预防4个维度入手,结合相关领域文献,参考百度关键词挖掘工具(http://tool.chinaz.com/baidu/words.aspx)选择关键词并扩展,初步获取了240个与手足口病相关的基础关键词,计算每个关键词的搜索指数与手足口病发病数的Spearman相关系数,按照相关系数r>7且有统计学意义(P<0.05)的原则,筛选出最终纳入分析的关键词。然后构建综合百度搜索指数,即计算每个关键词的搜索指数与发病数的相关系数在所有相关系数之和中的权重系数,再将该权重系数与对应的关键词的搜索指数相乘,最后求和得到。最后计算综合百度搜索指数与全国发病数据的Spearman相关系数,确定相关性的大小。相关公式如下:
式中,ρi为第i个关键词的搜索指数与发病数的相关系数;Weighti为第i个关键词的权重系数;Keywordi为第i个关键词的搜索指数。
1.2.2 模型拟合 ARIMA模型是一种将ARMA模型与差分运算组合的时间序列预测方法,即建立一个由因变量和随机误差对平稳时间序列的滞后值影响的模型,公式为ARIMA(p,d,q)×(P,D,Q)s,该模型应用的前提条件是所要预测数列的个体值需相对稳定[5]。本研究通过时序图及单位根检验来判断时间序列的平稳性,采用差分处理将不平稳的序列转换为平稳序列,用极大似然法估计模型参数。模型残差通过Ljung-Box方法判断是否为随机序列。根据赤池信息准则来判断模型的拟合优度,AIC值最小时为最优模型。以上方法通过R软件中的“tseries”和“forecast”包实现。
1.2.3 模型预测 模型的预测效果使用均方根误差百分比(root mean squared percent error,RMSPE)和平均绝对百分比误差(mean absolute percent error,MAPE)来评价[6],其值越小,说明模型预测性能越好。计算公式如下:
式中,Ti表示第i个真实值;Pi表示第i个预测值。
模型的分析及作图使用软件R 3.4.1,检验水准均为a=0.05,P<0.05认为差异有统计学意义。
2011—2017年全国共计发病达14 787 625人,月平均发病数176 043人,年平均发病率约154/10万。
分别对240个百度关键词搜索指数和全国手足口病发病数进行相关分析,按r>0.7,P<0.05的条件,筛选出19个关键词,见表1。根据19个关键词的百度搜索指数及其与全国手足口病发病数的相关系数进行加权来构建综合百度搜索指数。全国手足口病发病数与综合百度搜索指数的相关系数r=0.94,P<0.05。
2.3.1 时间序列平稳化 用2011年1月—2016年12月的发病数据构建时间序列,绘制时序图,发现序列为非平稳序列,需进行差分处理。差分后通过单位根检验得DF=-4.176 5,P<0.05,说明该序列已经平稳,d与D取值为1。序列的季节周期为12个月,故s=12。
2.3.2 模型的定阶 绘制自相关图和偏自相关图后发现自相关系数拖尾,q可取值0。偏自相关系数2阶后截尾,p可取值1或2。P,Q值一般不会超过2,分别对P,Q值取0、1逐个尝试,结合AIC值判断,最终确定的模型为ARIMA(2,1,0)(0,1,1)12,此模型的AIC值最小。
表1 19个百度关键词与手足口病发病数的相关性
2.3.3 模型验证 对此模型残差进行白噪声检验,Ljung-Box统计量Q=0.165,P=0.684,未通过显著性检验,残差是随机序列,证明该模型已充分提取原序列信息,可进行预测。
2017年1—12月手足口病实际发病数与模型预测发病数见表2,进一步计算模型的预测效果指标,得到基于百度指数的模型的MAPE=24.86%,RMAPE=29.86%;单独利用发病历史数据的模型的MAPE=27.58%,RMAPE=35.50%,说明前者的预测准确度要更好。基于百度搜索指数建立的ARIMA模型与单独利用发病历史数据建立的ARIMA模型的预测效果见图1、图2。
百度指数是大数据时代重要的统计分析数据,客观地记录了各个关键词每日的搜索量。网络搜索词量的动态变化一定程度上反映了该地区相关疾病流行情况和人群中发病及求医的信息[7]。ARIMA模型是应用于传染病预测最常用的方法之一[8-9],其综合考虑了传染病的周期性、季节性、随机性等可能影响序列平稳性的因素,提高了模型的预测和拟合效果。利用网络搜索数据进行传染病的预测已成为研究热点之一,国外研究基于“谷歌”搜索引擎已有登革热[10]、流行性感冒[11]谷歌趋势预测,国内更多的研究是挖掘百度搜索指数,进行不同数学模型预测,如流行性感冒[12]、登革热[13]、红斑性肢痛症[14]等,也有对清远市做基于百度指数的手足口病不同数学模型的预测研究[15-16],但目前尚无基于百度搜索指数的全国手足口病ARIMA发病预测模型研究。
表2 2017年1—12月的实际发病数与模型预测发病数(人)
图1 基于百度搜索指数的ARIMA模型预测效果图
图2 基于发病历史数据的ARIMA模型预测效果图
本研究利用关键词挖掘工具,从240个百度关键词最终筛选出19个相关系数大于0.7的关键词,然后加权构建综合百度搜索指数,提高了预测的精确度。综合百度搜索指数与手足口病发病数的相关性为0.94,同时,两者变化的趋势较为一致,说明使用百度指数进行手足口病发病的预测是合理且可靠的。利用建立的ARIMA模型进行预测,发现用结合百度搜索指数建立的ARIMA模型相对于只基于手足口病发病数建立的ARIMA模型,前者的MAPE值以及RMSPE值都比较低,说明使用百度搜索指数可以更好地提升ARIMA模型的预测性能。
本研究也存在一定局限性,百度关键词受到网民文化教育水平、个体健康需求等的影响,导致关键词范围宽泛;另一方面,人们也可能受媒体报道的影响,使百度指数存在媒体效应,造成百度指数的虚浮。尽管如此,挖掘互联网大数据对传染病进行发病预测的方法,为传染病的监测和防控提供了一个新思路。随着大数据时代的来临,百度指数作为一个方便、免费、易得的数据来源,应用前景广泛,未来可以使用不同的数学模型,结合全国或不同地区的传染病发病数据,建立预测性能更优的传染病监测系统。