基于百度搜索指数的最大主成分方法监测流感

2022-07-08 03:31郭海丽张翔
电子技术与软件工程 2022年8期
关键词:疑似病例关键字流感

郭海丽 张翔

(吕梁学院计算机科学与技术系 山西省吕梁市 033000)

在世界范围内,流感每年造成约300 万~500 万例严重疾病,其中,约25 万~50 万例导致死亡。传统的监测系统是预测流感的有效手段,但是,该系统基于手动收集和编码数据然后逐级汇总,导致疾病报告时间严重滞后和缺乏空间分辨率。所以,通过电子实时数据及时、有效预测流感爆发对于制定预防、干预对策至关重要。

文献通过谷歌搜索数据预测美国流感疑似病例数;文献通过参与性综合症监测系统,利用欧洲成员国参与者自愿提供的详细资料信息和流感疑似症状预测流感疑似病例数;文献通过谷歌搜索数据预测了香港流感疑似病例数;而文献通过多源数据预测了流感疑似病例数,其中多源数据包括:医疗实践管理公司athenahealth 附近的实时医院访问记录、谷歌趋势数据、与流感相关的Twitter 微博帖子、FluNearYou(一种自我报告的参与式监控系统)数据以及谷歌流感趋势。

由于这些电子实时数据在中国大陆无法访问且无法反映中国大陆网民的真实搜索意图,所以预测中国大陆流感疑似病例数无法使用上述数据。对标美国谷歌的谷歌搜索引擎,百度公司提供的百度搜索引擎顺应了中国大陆网民在线搜索信息的习惯,且记录了搜索行为,并以搜索指数的形式呈现,从而成为预测疾病的有效实时数据源。文献验证了百度搜索指数预测登革热病例数的有效性;文献验证了百度搜索指数预测手足口病例数的有效性;文献验证了百度搜索指数与红斑性肢痛症的相关性;文献首先通过百度搜索指数利用多元线性回归和文献利用集成惩罚线性回归模型验证了预测中国大陆流感病例数的有效性。文献说明了百度搜索指数比微指数监测中国大陆流感病例数更有效。然而,上述采用百度搜索指数预测疾病时,文献[选择疾病症状特征进行搜索,文献选择疾病名称进行搜索,本文通过斯皮尔曼等级相关系数证明了流感病例数与流感名称以及流感症状都高度相关。同时,文献通过各个关键字搜索指数与病例数的斯皮尔曼等级相关系数归一化,然后加权求和合成综合百度搜索指数作为预测因子。然而,本文通过分析关键字搜索指数与病例数的斯皮尔曼等级相关系数对称矩阵发现,各个关键字搜索指数之间存在高度相关性。应用主成分分析技术,选择最大主成分作为预测因子。两者运用岭回归模型预测中国流感病例数,结果表明,在各项指标上本文所提方法(最大主成分方法)优于前者方法(加权合成方法)。

1 数据源

本文选择的数据源分为两部分,一部分为真实流感病例数,另一部分为预测流感病例数的百度搜索指数。

1.1 真实流感病例数

如表1 所示,该病例数来源为中华人民共和国国家卫生和计划委员会,选择年月范围为2011年1月至2018年6月,共计90 个月,其中,选择开始日期的原因为百度只提供2011 年1 月到现在的百度搜索指数,选择结束日期为2018年6 月的原因为官方网站发布病例数有滞后,直到2018 年8 月6 日23:00 时,可选择的最新数据日期为2018 年6 月,每月数据的统计日期为当月1 日0 时至当月最后一天24 时,该数据是通过实验室检测证实的流感病例数据,不包括流感疑似病例数。

表1: 真实流感病例数

1.2 百度搜索指数

关键词选择是百度搜索指数监测中的关键问题,它直接影响监测方法的能力和检测精度。不同的人在搜索相同的信息时可能会输入完全不同的字词,尤其是存在方言的情况下,同时一种含义可能通过多种方式进行表达,因此,通过选择不同的关键字可以获得不同的结果。尽管这很重要,但没有指导的原则或标准。

本文搜索的关键字既考虑了病例名称,又考虑了症状特征,总共13 个,包括:流感预防、流感的症状、流感症状、流感疫情、流感病毒、流感大流行、a 型流感7 个关键词,流感以及伤风、咳嗽、感冒、喉咙痛、发烧6 个关键词,包含“流感”关键字选择依据为病例名称,其他5 个关键字选择依据为症状特征。

初步选定上述13 个关键字之后,分别以月为时间单位汇总对应关键字的搜索指数。由于搜索滞后于流感爆发,所以在分析搜索指数与流感病例数时,选择滞后月数为0 和1。同时针对上述90 个数据,设置训练集:验证集:测试集为6(54):2(18):2(18),通过计算训练集与验证集(2011 年1 月至2016 年12 月数据)病例数与搜索指数的斯皮尔曼等级相关系数(如图1 所示)可知:滞后0 月的相关系数全部高于滞后1 月的相关系数,且由于搜索关键字“流感疫情”与“流感大流行”对应的相关系数低于0.4 被剔除,最后所选择的搜索关键字为:流感预防、流感的症状、流感症状、流感病毒、a 型流感、流感、伤风、咳嗽、感冒、喉咙痛、发烧,共计11 个,选择滞后月数为0 月。

图1: 不同滞后月数的相关系数对比图

1.3 流感百度搜索指数

在最后选择的11 个搜索关键字特征之后,文献通过各个关键字搜索指数与病例数的斯皮尔曼等级相关系数归一化,然后加权求和进行合成。

本文通过分析关键字搜索指数与病例数的斯皮尔曼等级相关系数对称矩阵热力图发现(如图2 所示),部分搜索关键词之间存在强相关性,比如“流感预防”与“流感的症状”相关系数为0.86,“流感病毒”与“咳嗽”相关系数为0.78等,可能原因是部分网民针对同一症状分布用不同的关键字进行搜索。

图2: 斯皮尔曼等级相关系数热力图

针对特征百度搜索关键字之间的相关性,应用主成分分析技术,按照各主成分降序排列之后对应的方差贡献率趋势图(如图3 所示)可知,主成分方差贡献率高达64.08%,然后迅速下降,直到贡献率大约3%然后继续下降。为了与加权合成流感百度搜索指数比较,本文通过主成分线性降维技术把上述11 个关键字百度搜索指数线性降为1 维,并命名为最大主成分流感百度搜索指数。

图3: 各主成分方差贡献率趋势图

2 模型训练

其中,Y,N分别表示通过加权合成方法得到的流感病例数预测值以及对应的百度搜索指数;Y,N通过最大主成分方法得到的流感病例数预测值以及对应的百度搜索指数。

表 2:评价指标对比

3 实验验证

3.1 评价指标

针对最大主成分方法和加权合成方法的流感病例数预测效果,本文选择5 个评价指标进行比较:皮尔逊相关系数(R)、均方根误差(RMSE)、均方根百分比误差(RMSPE)、最大绝对百分比误差(MAPE)、命中率(Hit Rate),分别评价真实病例数与预测病例数之间的线性相关性、距离、距离百分比、最大距离百分比、趋势变化一致性程度。

3.2 评价结果

从表2 可知,本文所提方法在指标R、RMSE、RMSPE、MAPE 上全部优于加权合成方法,在Hit Rate 上效果相当。同时在2018 年1 月预测流感大爆发病例时,主成分方法比合成方法接近真实病例数大约4800 人。

4 结论

由于Eysenbach 等利用互联网搜索指数开启了流感监测的重要先例之后,极大拓宽了互联网搜索数据的应用领域。而在国内,百度作为使用人数最多的搜索引擎,它所提供的搜索指数理所当然成为最方便获得且最真实的数据来源。同时,为了更准确反映网民搜索行为趋势变化,百度搜索指数于2018 年2 月5 日完成对全部历史搜索指数的策略升级。最后,“好搜”搜索指数也用于北京、上海、广州的流感疑似病例监测。伴随着移动端的普及,头条指数提供的热度指数、搜狗指数提供的搜索热度与微信热度与百度搜索指数、好搜搜索指数互相补充,互借信息,共同记录着网民的搜索行为,通过这些共同行为预测流感将是今后的研究方向。

猜你喜欢
疑似病例关键字流感
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
新型冠状病毒感染肺炎疑似病例临床分析
柴胡达原饮合三仁汤、六君子汤加减早期干预新型冠状病毒肺炎疑似病例的效果
新型冠状病毒肺炎病例的发现与报告
答一位征集抗疫诗的朋友
冬春流感高发 加强防治最重要
成功避开“关键字”
秋季谨防牛流感
猪流感病的预防与治疗
智能垃圾箱