主成分分析法研究大流行病范围界定

2020-07-23 10:51武佳琪张慧慧李梦洁
大经贸 2020年5期
关键词:主成分分析法

武佳琪 张慧慧 李梦洁

【摘 要】 世界卫生组织将新冠状病毒定义为“大流行病”,这充分证明了该流行病毒的巨大破坏性,对于大流行病的定义标准,世界卫生组织还未给出具体的定义。基于此,本文使用主成分分析法建立综合评价模型,参考现代学者对流行病和大流行病的研究成果,并结合样本数据集中的变量选取死亡人数、感染人数和康复人数等作为模型指标,通过SPSS软件对样本数据集进行计算,提取指标主成分,在世界卫生组织对大流行病的定义基础上,根据疾病得分划分大流行病的阈值范围。

【关键词】 大流行病 主成分分析法 SPSS

1 引言

新型冠状病毒的出现立即引起了全球各个国家和世界卫生组织等国际社会组织的高度关注,此次冠状病毒不同于普通的流行病,它在短时间内传播到全球主要国家地区,对全球经济造成严重影响,对全人类造成极大的恐慌。对于新型冠状病毒传播规模的巨大和造成的影响,世界卫生组织现已将其定义为“大流行病”。

2 数据预处理

本文通过整理世界卫生组织以及各地政府公示疫情数据等作为原始数据集经过分析发现,部分数据含有噪声,而考虑到数据的质量会对模型结果产生重要的影响,所以本文原始数据集进行清洗和统一的集成变换,也就是数据预处理。通常数据预处理的方法是通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、缺失值和处理不一致数据。[1]

3主成分分析法评价

由于大流行病的界定标准并没有明确,因此本文通过结合上述现有学者的研究成果和数据预处理后的样本数据集变量,选取各个国家在此次新冠肺炎疫情中的死亡人数、感染人数、康复人数、持续时间以及人口密度和经济状况建立多指标体系。对于多指标体系,本文选取主成分分析法对问题进行分析,该方法降低了主观因素的影响,有较好的客观性,现被广泛引用于多个领域的指标计算。[2]

Step1:对样本数据集进行标准化处理,定义死亡人数、感染人数、康复人数、持续时间以及人口密度和经济状况为。由于样本数据的量纲不完全相同,为了使得各个指标之间有可比性,需要消除数据的量纲,一般使用的方法是最大最小法。

Step2:计算样本矩阵的相关系数,得到相关矩阵,并计算特征根及特征向量。特征矩阵R可以得到多个非负特征根,由此得到对应的特征向量,构成正交矩阵。[3]

Step3:从多指标体系中选择主成分。运用SPSS软件对所建立的多指标体系进行分析,列出个主成分对应的特征值、相应的方差贡献率和累计方差贡献率。由于前2个指标累计已达87.98%,因此提取主成分1,主成分2构成模型的新指标。

Step4:计算主成分指标的因子载荷状况,从下表中可以分析出,感染人数X1,康复人数X2,死亡人数X3和经济状况X6对于主成分1的作用较为明显,而持续时间X4和人口密度X5对于主成分2的作用较为明显。第一主成分集中反映了大流行病时期对人类社会产生的影响,也可概括为大流行病的危害。第二主成分则反映了大流行时期世界的基本状况,可概括为当局现状。

为了更清楚地解释各变量在各主成分上的载荷意义[4],对各主成分载荷做方差最大化正交旋转,分别得到主成分F1与主成分F2的表达式,并根据主成分表格中的贡献率可以得到流行病的综合评价函数如下:

Step5:带入流行病数据, 划分流行病与大流行病的定量条件。查询相关资料可知,黑死病、甲型H1N1是已经被世界卫生组织认定的“大流行病”,它们的综合得分分别为0.857,0.663,而非典和肺结核雖然也对全球的社会发展造成影响,但是却因为其能够被有效控制,且扩散规模并没有超出预期范围,因此只是被定义为“流行病”,它们的综合得分分别为0.568,0.231。

根据目前学者研究成果和世界卫生组织现阶段流行病标准定义,对于“大流行病”考量的指标有疾病的致死性高、疾病的扩散规模大、疾病的传播速度快[9]。在此基础上,本文结合上述主成分分析法得到的综合得分,给出划分“大流行病”的得分范围是{0.6~1.0},不在这个范围内的可视为“流行病”。

4 总结

新冠状病毒肺炎于3月12日被世界卫生组织认定为大流行病,其得分为0.714,在本文模型划分的阈值范围内,符合模型结果。本文所建立的PCA模型为解决大流行病划分问题提供了较好的思路,且现代学者对此类模型已经有了很多方面的研究,也就是说有着坚实的理论基础,合理性较强。

【参考文献】

[1] 陈楠. 基于数据预处理的铁路货运量SVM预测[D].石家庄铁道大学,2019.

[2] 蒋之犇.基于GIS的2009年甲型H1N1流感大流行影响因素研究[D].陕西师范大学,2013.

[3] 李化成. 论14世纪英国的聚落环境与黑死病传播[J]. 世界历史,2011(04):79-88+160.

[4] 简天天. 英属北美殖民地天花传播及其防治研究[D].重庆师范大学,2019.

[5] 苗新利,郎英,杨俊.主成分分析在农村居民消费性支出研究中的应用[J].中国商论,2018(35):69-71.

作者简介:武佳琪(出生年份1999年),性别:女,民族:汉族,籍贯:河北邯郸,学历:大学本科,单位:华北理工大学,研究方向:智能科学与技术。

张慧慧(出生年份2002年),性别:女,民族:汉族,籍贯:河南新乡,学历:大学本科,单位:华北理工大学,研究方向:智能科学与技术。

李梦洁(出生年份2000年),性别:女,民族:汉族,籍贯:河北保定,学历:大学本科,单位:华北理工大学,研究方向:智能科学与技术。

猜你喜欢
主成分分析法
中国装备制造业阶段竞争力研究
陕西省各地区人力资本水平综合评价与分析