龚华东
WSARE(What’s Strange About Recent Events)的中文译名叫异常模式探测法。是用于针对生物孔博袭击与传染病爆发的监测与早期预警领域[1]。在美国已经被纳入美国实时暴发监测系统(RODS system)。该统计模型对于探测传染病或者是症候群的聚集性具有很重要的应用价值,但是由于在解决其算法优化和维度的拓展方面存在一定的困难,一种基于历史数据基线的WSARS算法被应用于宾夕法尼亚州和犹他州的急诊病例监控[2]。另一种是基于贝叶斯网络基线的WSARE算法被美国的公共卫生部门与以色列国家疾病预防控制中心所使用。WSARE作为一种融合了包括规则算法、贝叶斯网络、随机化检验等多种思想的聚集性探测算法,具有强大的实用性。在2004年我国首次建立了传染病疫情信息网络直报系统,本研究旨在探讨WSARE算法对我国该系统数据的适用性,及对传染病暴发早期预警的应用价值。
1.1 基本原理 WSARE算法是基于历史数据和贝叶斯网络的基线,两者的区别在于基线分布的建立,历史数据基线是以历史数据选定天数作为基线,而后者是从构建的贝叶斯网络中抽样构造基线后,再建立基线分布后,对最近发生的事件进行搜索,用基线和最近数据集寻找最佳得分规则,再随机检验估计最佳规则的P值,从而得到有意义的P值及规则作为预警信号。
1.2 一般资料 对于传染病的数据来源我们选择了2010年广州市番禺区细菌性痢疾患者数据,通过核查,排除干扰性数据与资料记载不完备的数据外,得到的细菌性痢疾数据38例,选择数据中的性别、年龄、详细地址、发病日期、职业等作为变量。转换变量名称为,时间变量、空间变量、患者性别、年龄、职业。其中,将“发病时间”作为时间变量纳入分析,患者住址作为空间变量,年龄经过分层纳入分析。
1.3 参数设置与方法 将2008~2009年的细菌性痢疾数据作为历史基线数据,对2010年进行逐日模拟实时预警分析。采用历史数据基线的WSARE算法考虑到细菌性痢疾的潜伏期为2周,所以基线的设置时间为每2周,所以基线时间的间隔就确定为2周,而基线时间长度为4周。而采用贝叶斯网络的基线的WSARE算法中将参数“day-of-week”“season”作为环境变量。
采用基于历史数据基线的WSARE算法模拟探测结果如表1。随机化检验α=0.05。探测到全年异常增高共19次,其中发现双特征变量联合异常增高情况6次,单特征变量异常增高情况13次。见表1。
采用基于贝叶斯网络基线的WSARE算法模拟探测结果。表2探测到全年异常增高共51次,其中发现双特征变量联合异常增高情况27次,单特征变量异常增高情况24次。
表1 历史数据基线分析表
表2 贝叶斯网络基线的WSARE算法模拟探测结果
两种方法均发出预警信号的天数共7次,其中有4次预警信号的特征变量值相同。由此可见对于异常增加较为明显的状况下,即便采用基线选取的方法不同,依然能够发现存在的明显差异,同时也说明这类预警信号通常具有较强的现实意义。
作为一种早期预警系统,对于算法的正确性的要求是高的。WSARE算法是通过对“最近事件”与基线分布的区隔是否有显著的差异,来探查发病的异常增高,并及时的发出预警信号。但是预警信号不等同于流行病学意义上的“暴发”[3],因此对于预警信号需要进一步的现场调查与确认和在流行病学上的评估分析。
根据本研究的结果显示,预警信号与实际存在差距需要引进预警信号的分级办法,对于不同意义的预警信号,编列强度等级,并做好相关的预案。用“蓝、黄、红、黑”四个等级强度表示在流行病学上相对应的级别[4]。对于高级别的预警信号,当采取立即核实名排除误报的可能,组织专业的流行病学专家到现场调查与实验室检测,对存在真实的传染病暴发地应立即启动传染病应急预案,进行干预防治工作。
在变量的选择方面,可以根据研究方向的侧重点与病种的特性进行技术性的调整。在贝叶斯网络基线的算法中在去除作为探测因素的反映变量还可以将环境变量作为反映变量的变异纳入分析中,在本研究中,环境变量参数设置上纳入有星期数、季节、气候、食品与水环境、药物可及性等[5]。但是由于变量的增加会导致基线所需要的数据量与运算时间的增加。这就要求在数据的真实性与运算耗时的选择上,根据研究课题的方向性做取舍。
在对于WSARE运算的应用角度来看,Wong等人在通过模拟数据研究发现,WSARE算法在多元分类资料异常情况探测中,对于单因素方法上更为有效,他的优势在于能识别不同特征变量组合所构成的异常组群,无需对特定组合进行监测。在时效性与精确性方面的优势也是明显对于监测传染病的网络直报系统中对于数据的检测与预警具有良好的前瞻性应用前景。而贝叶斯网络基线的算法是以长期的历史数据构造贝叶斯网络,他的特点是纳入环境属性,考虑了季节等时间趋势因素,在对于长期监测预警,如对法定传染病、慢性疾病监测等,采用该算法具有明显优势。根据本研究结果显示,对于实时监测预警可结合两种算法的结果,以综合考虑长期和短期的波动异常。
[1]Stoto MA,Schonlau,M,Mariano LT.Syndromic surveillance:Is it worth the effort[J].Chance,2008,18(2):21-24.
[2]Reingold A.If syndromic surveillance is the answer.what is the question[J].Biosecur Bioterror,2009,10(8):79-83.
[3]Kulldorff M.Prospective time-periodic geographical disease surveillance using a scan statistic[J].J R Stat Soc A Stat Soc,2009,172(11):69-71.
[4]Kulldorff M.Syndromic surveillance without denominator data:the spacetime permutation scan statistic for disease outbreak detection[J].PLOS Med,2009,2:219-223.
[5]殷菲,冯子健,李晓松,等.前瞻性时空扫描统计量在传染病早期预警中的应用[J].中华预防医学杂志,2009,41(2):121-123.