基于聚类分析和趋势二次移动平均法的新型冠状病毒的建模和预测

2021-07-28 00:32吴兆鑫蔡丹敏许梓炫
速读·下旬 2021年3期
关键词:新型冠状病毒聚类分析

吴兆鑫 蔡丹敏 许梓炫

◆摘  要:本文探讨GDP排名全球靠前国家新型冠状病毒的数学模型和预测问题。首先,爬取了2019年GDP排行前十的国家的新型冠状病毒实时数据;其次,利用Matlab软件对数据进行标准化和主成分分分析,构建了主成分的方差贡献率模型;再次,运用趋势二次移动平均法、聚类分析等统计方法,建立了世界主要国家的新型冠状病毒的发展趋势预测模型;最后,总结出GDP排名全球靠前国家新型冠状病毒的管控能力,分析了各国政府防控措施手段的有效性。

◆关键词:新型冠状病毒;趋势二次移动平均法;聚类分析;疫情预测

1引言

2019年12月,新型冠状病毒疫情在湖北省武汉市爆发,并迅速在全国及全世界蔓延,目前已成为全球流行性传染疾病,对全球各个国家的经济、生活、生命财产产生巨大的影响。由于各个国家本身的经济能力、政治体制、文化差异、各国人民对疫情重视程度的差异及各国医疗水平等因素,导致了每个国家在抗击疫情的道路各不相同。为此,搜集各国疫情数据,进行大数据数据分析,建立数学模型,最终得到新冠病毒疫情发展的基本特点和规律,是本文研究的主要目的。

2研究思路和方法

为评价各主要国家管控新冠疫情的效果,我们选取了疫情发展最为严重的且全球GDP排行靠前的国家,通过网站“http://hao.199it.com/ncov.html”爬取世界主要国家疫情数据,然后对数据进行标准化等预处理,利用主成分分析构建方差贡献率,求出方差贡献率累计占比超过于95%的第一、第二主成分,根据各指标数据与主成分相关性得出国家的综合得分,最终获取各主要国家管控效果。

为建立主要国家疫情发展趋势的模型并进行预测,我们根据时间序列模型的二次移动平均法,改进后采用趋势移动平均法,得到了各主要国家疫情发展的趋势预测模型,最后在相关软件推演中通过推导和实证。

3世界主要要国家疫情发展特点

我们在matlab中对世界GDP靠前的十个国家的数据进行处理并绘制成趋势图,新增确诊、新增治愈、新增死亡的趋势变化如图1所示:

其中红色曲线为新增确诊,绿色曲线为新增治愈,黑色曲线为新增死亡。其中部分出现负值的原因为人为更改统计方式导致的,因此将出现负值的数据一并处理为0,这对结果并不会有很大的影响。根据图3.1可将十个国家各自的疫情程度进行分类,其中USA(美国)、India(印度)、Brazil(巴西)这三个国家新增确诊人数都大致呈线性上升的趋势,说明疫情程度在一直在恶化,而其他国家都大致呈先上升后下降再趋向于平稳的趋势,说明疫情程度得到有效的控制,根据图表分析,可以粗略的分为两类,USA(美国)、India(印度)、Brazil(巴西)这三个国家为一类,其他国家为一类。

将十个国家的新增确诊、新增治愈、新增死亡进行汇总后求平均值,且计算出累计的确诊人数,如图2所示。并用Q型聚类法中的欧氏距离计算出各个国家之间的距离。

根据图2的聚类分析图可得出最終的分类结论:印度、美国、巴西各为一类,剩余国家为一类。

4世界主要国家疫情综合评价模型

将GDP排名前十的国家在疫情期间的各数据指标取平均值,

通过计算得出了主成分的方差贡献率,并对方差贡献率进行可视化,通过计算得出前两个主成分的方差贡献率累计已达到96.5%,其中第一主成分的主要方差贡献率为87.94%,第二主成分的主要方差贡献率为8.57%,由于前两个主成分分析占比超过95%,则考虑国家管控效果时可只考虑前两个主成分分析。图6为第一主成分和第二主成分各自主要方差贡献率的各个指数。

根据据以上数据,利用主成分综合评价模型求得

根据各个指数与两个主成分分析的相关性 可发现综合得分越低则代表该国家对疫情的管控效果越强。世界主要国家的综合得分由低到高排序如表1所示:

因此可得出在世界主要国家当中,日本、加拿大、中国是疫情期间管控效果最好的,而印度、巴西、美国是疫情期间管控效果最差的。

5基于趋势二次移动平均法的新冠肺炎疫情的数学模型

根据时间序列模型中的二次移动平均:二次移动平均法,是对一次移动平均数再进行第二次移动平均,再以一次移动平均值和二次移动平均值为基础建立预测模型,计算预测值的方法。使用一次移动平均法的平均数计算公式为

6结论

本文运用了趋势二次移动平均法,构建了世界主要国家的发展趋势预测模型,很好的对世界各国疫情及抗疫成效进行分类评价及预测,在建模的过程中,坚持从数据本身出发寻找合适的模型,从而保证模型与数据之间具有较好的拟合效果,为后续的统计分析提供了便利,也保证了模型的可靠性。

参考文献

[1]卓金武,王鸿钧.MATLAB数学建模方法与实践(第3版)[M].北京航空航天大学出版社,2018.

[2]白晓东.应用时间序列分析[M].北京:清华大学出版社,2017.

[3]范晋蓉,白晓东,郭佩汶,等.广西壮族自治区病毒性肝炎发病数的建模与预测分析[J].检验检疫学刊,2019,29(06):1-5.

[3]姜启源,谢金星等.数学建模(第四版)[M].北京:高等教育出版社,2011.

[4]胡雷芳.五种常用系统聚类分析方法及其比较[J].浙江统计,2007.

[5]马知恩.传染病动力学的数学建模与研究[M].北京科学出版社,2004.

作者简介

吴兆鑫(2001.03—),男,广东科学技术职业学院计算机工程技术学院大数据专业在读学生;

蔡丹敏(2001.08—),女,广东科学技术职业学院计算机工程技术学院大数据专业在读学生;

许梓炫(2001.01—),女,广东科学技术职业学院计算机工程技术学院移动应用开发在读学生。

基金项目:广东省普通高校重点研究项目(编号:2019GZDXM013);广东省教育厅特色创新类项目(教育科研)(编号:2017GGXJK017);广东科学技术职业学院校级培育项目(编号:XJPY2018003)。

猜你喜欢
新型冠状病毒聚类分析
突发性公共卫生事件:政府与公众的变与不变
“新型冠状病毒”该如何防治
基于省会城市经济发展程度的实证分析