基于自然语言处理的新冠疫情文献分析与研究

2021-11-22 05:05袁靖飞
无线互联科技 2021年3期
关键词:降维实例分组

孙 妍,任 勇,袁靖飞

(苏州大学 应用技术学院,江苏 昆山 215325)

0 引言

随着科技的日新月异,科学家们在科技道路上遇到的问题越来越复杂,人们对人工智能解决复杂问题的期望值越来越高,由此应运而生的机器学习相关技术得到迅猛发展。机器学习技术通过模拟、延伸和扩展等方法,机器学习可以作为人工智能的一个子集。其次机器学习是基于大数据的,它的“智能”需要海量的数据,为了应对COVID-19大流行,美国等主要研究团队开放了COVID-19研究数据集。COVID-19的资源超过300 000篇学术文章,涉及COVID-19,SARSCoV-2和相关的冠状病毒。本文采用的就是该数据集,并对这些文献进行分组,简化相关出版物的检索,对聚类的内容进行限定。

1 主要技术与算法

1.1 TF-IDF(Term Frequency-Inverse Document Frequency)

TF-IDF通常被用作为信息检索的加权和文本挖掘的加权。TF-IDF作为一种常用的统计方法,通常被用作评估一份文件集或语料库中某个字词的重要程度。这个字词的重要程度会随着它在文件集中出现次数的增加呈正比增长,而与它在语料库中出现次数的增加呈反比增长。TF-IDF通常被用作分类,原因在于:当某一字词在一份文件集中出现的频率TF高,而在其他文件集中出现的频率低时,就可以认为这个字词可以将两份文件集有效地区分开来[1]。

使用TF-IDF,这将把字符串格式化的数据转换为衡量每个词对整个文献中的实例的重要性,矢量化数据。根据正文的内容进行聚类,特征的最大数量将受到限制。只有前212个特征将被使用,本质上作为一个噪声过滤器。此外,更多的特征会导致长运行时间[2]。

1.2 PCA

主成分分析(Principal Component Analysis,PCA)是一种常用的数据分析方法。PCA通常被用于高维数据的降维操作,是利用线性变换的方法,将原始的数据转换为一组线性无关的维度表示,利用这种表示可以提取出相关数据的主要特征分量。PCA可以将数据的维数在保持0.95的方差内投影到多个维数,同时消除嵌入时的噪声和离群值。通过PCA保持大量的维度,不会破坏很多信息[3]。

1.3 t-SNE(Distributed Stochastic Neighbor Embedding)

t-SNE是用于降维的一种机器学习算法,由Laurens van der Maaten 和 Geoffrey Hinton在2008年提出。作为一种非线性的降维算法,t-SNE算法常被用于流形学习的降维过程。t-SNE算法通常被用于高维数据降维到2或3维数据,便于可视化操作。

使用t-SNE,可以将高维特征向量缩减到2维,通过使用这2个维度作为x,y坐标,可以绘制body_text。t-SNE在降低维度的同时,尽量让相似的实例靠近,而不相似的实例分开。它主要用于可视化,特别是可视化高维空间中的实例集群[4]。

1.4 K均值聚类算法(K-Means Clustering Algorithm)

K均值聚类算法通常被用于数据迭代求解中的聚类分析(见图1)。聚类是指将数据分组并集中于某些相似的数据成员的过程。人们通常称这种发现内在结构的操作为无监督学习。K均值聚类算法是将随机选取的K个对象作为起始的聚类节点,通过计算其余各个对象与聚类节点的相对距离,选取各个对象最小的相对距离分配给各自对象。聚类节点和分配给对象的相对距离就代表一个聚类。所有对象都被分配完成之后,每个聚类相对应的聚类节点都会被重新计算。重复以上步骤直到满足相应的条件,这个条件可以为以下任意一种:(1)没有(或最小数目)对象被重新分配给不同的聚类;(2)没有(或最小数目)聚类中心再发生变化;(3)误差平方和局部最小。

2 实验与分析结果

首先,该工具保存为html文件,它可以下载并在本地使用;其次,维度的减小将减小数据集的访问难度。论文都在图上,可以通过悬停在它们上面进行快速检查,如果摘要看起来很有趣,用户就可以通过点击该点,得到一个包含更加详细信息的文本框链接。再者,通这些无监督的技术可以向人们展示文献中隐藏的联系;最后,这项工作可以很容易地根据需要进行复制和修改,以便作为未来项目的基础。但是研究中也同样存在着一些问题值得深思,例如可能出现假阳性,难以在主体之间划出准确的界限;K-means和t-SNE是无监督的方法,不一定会以可预测的方式对实例进行分组,同样正是由于它们的无监督性质,对于如何对论文进行聚类,没有一个“标准的答案”,一旦出现问题,可能很难调试;本文中使用的算法是随机的,因此结果可能会随着算法的变化而变化;并且会增加其在大型数据集文献的运行时间。

3 结语

对关于COVID-19的文献进行分组,减少数据集的维度,这样就得到了一幅散点图,其中类似主题的文献被归为一组,其背后连接着一个更大的主题群。聚类和关键词都是通过无监督学习模型找到的,可以揭示人类可能根本没有想到的模式。在这个项目的任何部分,不必手动组织论文。K-means(用颜色表示)和t-SNE(用点表示)能够独立地找到聚类,这表明论文之间的关系可以被识别和测量。在多数情况下,相似的研究领域都被聚类,最后的评估方法是分类,通过用K-means标签训练一个分类模型,然后在一个单独的数据子集上进行测试,可以看到聚类并不是完全任意的。需要说明的是,不评估文献的质量,仅仅将其分类,创建这个工具是为了帮助专门人员更方便地筛选出许多与新冠病毒有关的文献,解决他们的需求。

猜你喜欢
降维实例分组
混动成为降维打击的实力 东风风神皓极
降维打击
分组搭配
怎么分组
分组
完形填空Ⅱ
完形填空Ⅰ
抛物化Navier-Stokes方程的降维仿真模型
基于特征联合和偏最小二乘降维的手势识别