特征加权的CLSVSM

2021-05-27 07:12牛奉高
计算机与现代化 2021年5期
关键词:词频语义聚类

牛奉高,闫 涛

(山西大学数学科学学院,山西 太原 030006)

0 引 言

近几年,大数据观念深入人心,由于信息量的急剧增长,丰富的文本资源在给人们提供巨大便利的同时,数量巨大和种类繁多也带来存储处理和有效检索的困扰。传统的文本信息检索方法虽然提高了不同文本的辨识度且起到了一定的分类作用,但是并没有挖掘文本之间内在的语义联系,耗时长且检索效率不高,其数据化表示和存储尤其是复杂数据的处理也成为了人们关注的焦点。因此,学者们不断地深入剖析文本间的关系,提高文本资源检索[1]、聚合的效率,同时跟上文本信息更新的大步伐,保证信息处理的时效性。

在文本向量空间发展领域内,Salton等[2]于1975年首次提出了以向量空间模型(VSM)来表示文本,基于布尔权重,只分析关键词是否存在于文本中,文本特征词之间两两独立存在,彼此无关联,并未进一步分析其内在联系;文献[3]中广义空间向量模型(GVSM)引入关键词之间的共现信息,但是并不能更深层次表达出来;在此之后,Song等[4]提出了语义向量空间,虽然引入了语义信息,但是聚类结果不太明显,且建立过程较为复杂;Song等[5]为以TF-IDF构建的向量空间的相似度设置阈值,大于阈值的挑选出来,其词权重为所有相关元素的平均权重,不仅有效地降低了特征向量的维数,同时将语义信息整合到文本使用语义词典,从而更好地表达文本的信息。肖志军等[6]和白秋产等[7]分别利用知网将文本表示为义原空间向量和概念空间向量,但只是把词语用知网中的义原或概念表示,没有考虑词语在文本中所占的比重;李智星[8]利用CSA(简明语义分析)计算每个术语和每个概念之间的关系,对词频进行类别概念信息加权,最终构建了文本向量;唐明伟等[9]提出了基于领域本体的语义向量空间模型,大大地提高了文本检索效率;Mikolov等[10]提出了Continuous Bag-of-Words Model和Continuous Skip-gram Model,用于学习词的分布表示以减小计算复杂度,使用更多的数据集和高维度的词向量会有更高的准确率,但是同时也耗费更多的时间,分布语义模型[11]被广泛运用;牛奉高等[12]提出了共现潜在语义向量空间模型(CLSVSM),该模型充分提取关键词与文本之间的语义信息,并且对VSM进行改进,引入最大共现强度作为模型权重,以更好地分析关键词与文本之间的共现关系[13],并进行了大量的文本聚类验证实验,实验验证了此模型明显优于VSM;文献[14]在CLSVSM基础上,基于潜在语义分析(LSA)的思想构建了语义核(CLSVSM_K),不仅降低了共现矩阵的维度,而且合并了文本特征词之间的同义信息。

众所周知,文本词频分析法是文献计量学[15]领域常见的方法,它是传统的文本内容分析法[16]。而关键词是与文本内容和主题密切相关的、极具代表性的专业术语,且对文本主题的说明作用很大,用关键词构建词向量表示文本已是很常见[17-19]。以词频表达文本信息虽然反映了特征项与文本的显在关系,但没有考虑其潜在语义关系,且有的关键词对文本表示效果不太好,甚至属于冗余信息,从而影响聚类效果。随着维数增加,数据维数增多且稠密很容易造成维数灾难[20-21]。因此,如何有效地剔除冗余信息,更好地进行特征选择[22],从而达到稀疏降噪效果,这些问题有待解决。实际上,关键词之间是存在共现关系的,CLSVSM很好地反映了文本的共现潜在语义信息,但是没有结合特征项在文本中的词频信息。另外,对词频赋予IDF权重最终构建TF-IDF模型[23]对于文献的聚类效果更好,因此,为共现强度赋予词频权重是一个值得讨论的问题。

本文基于CLSVSM引入关键词词频信息,构建词频CLSVSM,再将词频作为权重赋于共现强度,也就是说,当某一个关键词与其他关键词存在共现关系且该关键词作为内容出现在该文本中时,在共现强度基础上赋予在该文本的词频权重,这样可以减小文献词频信息冗余特征项,最终构建特征加权的CLSVSM。

1 对比模型介绍

1.1 VSM

首先,以关键词为特征项,以每篇文献为空间向量,引入布尔权重,即某一特征项存在于某篇文献则赋值为1,否则赋值为0,构建VSM为:

di=(ai1,ai2,…,aim)T∈RD,i=1,…,n

(1)

可得篇-词矩阵A=(aij)n×m。该矩阵的行代表文献,列代表关键词,也就是以关键词是否出现于文献来表示文献信息,这也是构建CLSVSM的基础模型。

1.2 S_VSM

当人们想要了解一篇文本的主要内容时,除了词语是否存在于文本中这一信息外,还可以着眼于关键词在该篇文本中的存在量来分析。以词频作为权重,可以更多地联系关键词与文本的相关关系。在此,从所有文本中提取的关键词形成词语集合,统计关键词频数ni,其中nij表示第j个关键词在第i篇文档中出现的次数。需要注意的是,不仅仅是某篇文本关键词的出现频数,属于其他文本的关键词出现于该文献中,但不是该篇文本的关键词也要赋予词频权重,因为其反映了该文本的内容信息。将关键词频数进行归一化:

(2)

进而构建文本向量:

di=(ei1,ei2,…,eim)T∈RD,i=1,…,n

(3)

由上述向量集可构成文本频数向量空间E=(eij)m×n,其中eij表示第j个关键词在第i篇文档出现的频率,紧密地将关键词与文档内容联系在一起。

VSM是基于关键词在文本中的布尔权重构建的空间向量,即表示一个词语既是该文本的关键词同时也存在于该文本中,现在将关键词在文本中所占布尔权重用相应的词频权重来重新估计,从而构建S_VSM:

Γ:diΓ(di)=(fi1,fi2,…,fim)T∈RD

(4)

其中,

(5)

1.3 TF-IDF模型

TF-IDF是一种常见的统计方法,用于衡量关键词对文本集或者语料库中一篇文献的重要程度。TF-IDF实际是TF·IDF,TF就是指该词在文本中的词频(Term Frequency),而IDF是指逆向文件频率(Inverse Document Frequency),也就是在词频上赋予IDF,以TF-IDF重新估计词频来对文本重新表示的过程。

显然,对频数归一化,那么eij表示第j个关键词在第i篇文本中出现的频率,也就是TF。而IDF则定义为:

(6)

其中,|D|表示文件集中文本总数,|{j:ti∈dj}|表示包含关键词ti的文本数。TF-IDF是一种相对高效常见的加权技术。最终在词频向量空间的基础上,为词频权重赋予相应的逆文档频率构建了TF-IDF模型。其向量空间为:

di=(xi1,xi2,…,xim)T∈RD,i=1,…,n

(7)

其中,xij=eij·idfij。

1.4 共现潜在语义向量空间模型(CLSVSM)

本节基于文献[6]对CLSVSM构建步骤进行简单介绍。

基于VSM构建共现矩阵:

C=AT·A=(cij)m×m

(8)

C中元素表示对应任意2个关键词在同一篇文献出现的总次数。而与之对应的矩阵为:

(9)

上述矩阵为共现强度矩阵,其元素表示对应第i个关键词和第j个关键词出现于同一篇文献的概率。

最后,以Ii1={j|aij=1}为选取指标,将关键词共现信息引入向量空间模型中,从而构建CLSVSM:

φ:diφ(di)=(qi1,qi2,qi3,…,qim)T∈RD

(10)

其中:

(11)

公式(11)中,bjt表示第j篇文档的第t个关键词的共现强度。

在该模型中,当aij=0时,表示第j个关键词不存在于第i篇文档,此时通过选择指标筛选出存在于该文档的其他关键词,由共现强度矩阵可知第j个关键词与存在于该文档关键词的共现强度关系,选取其中最大共现强度关系来抽象表示第j个关键词与第i篇文档的关系。

1.5 Word2vec文本模型

文献[24]对Word2vec进行了简单介绍,它使用一层神经网络将one-hot(独热编码)形式的词向量映射到分布式形式的词向量,把词与词之间的相似度用作某个模型的特征(分析)将one-hot形式的词向量转化为Word2vec形式;它将文本特征项转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。

通过Word2vec计算出特征词之间的相似度矩阵:

Matrix=Matrix(zij)

(12)

上述矩阵为余弦相似度矩阵,其元素zij表示对应第i个关键词和第j个关键词的相关性,取值范围为0~1之间,值越大表示2个词关联度越高。以Ii1={j|aij=1}为选取指标,将zij引入向量空间模型中,从而构建Word2vec文本模型:

ν:diν(di)=(ki1,ki2,ki3,…,kim)T∈RD

(13)

其中,

(14)

构建模型方法同CLSVSM一致,将词共现强度用词相似度重新估计,最终构建该文本模型。

2 新模型构建

2.1 词频CLSVSM

在构建该模型时,对于之前已经构建的CLSVSM,文本与关键词的关系通过共现信息表示,为了进一步分析二者的关系,本文以关键词在文本中出现的频率来估计共现权重,也就是说,当一篇文本中的关键词与该篇文本存在潜在语义关系时,则以关键词在该文本所占的词频权重来重新估计共现权重,而当二者无潜在语义关系时,不予以重新估计。通过对CLSVSM进行词频补充可得:

τ:diτ(di)=(ωi1,ωi2,ωi3,…,ωim)T∈RD

(15)

其中,

(16)

相比CLSVSM,该模型结合了两两关键词之间的共现信息以及关键词出现于文本的相关信息,使权重代表了更多的信息,优化文本表示。其中,会出现下列几种情况。当qij=0,ωij=0时,表明第j个关键词与第i篇文本无共现关系;当qij≠0,ωij≠0时,表明第j个关键词既与第i篇文本的关键词存在共现关系,而且也存在于该文本中;当qij≠0,ωij=0时,表明第j个关键词既与第i篇文本的关键词存在共现关系,但是不存在于该文本中。该模型旨在共现潜在语义信息基础上引入词频信息,也就是将其当成词频引入的基本条件。相比CLSVSM而言,在存在共现潜在语义关系的基础上引入词频信息,也是剔除冗余共现信息的过程,当引入的词频权重为0时,表示虽然该关键词体现了文本潜在语义信息但是并不存在于该文本,因此对该文本表示的重要性也下降,将该共现信息予以剔除。而相比词频信息表示模型,更是基于共现关系的去噪过程,因为当关键词与文本无共现潜在语义关系时,其词频信息对文本的信息表达和重要性就下降,为了防止对文本聚类造成不利影响,将其视为文本表达的冗余信息予以剔除,也就是将能够显著代表文本的词频信息挖掘出来,最终仅在部分特征项(这些词频特征项在共现条件下被选择)上构建模型。这样既能保持文本聚类性能良好,又不会因为数据的冗杂和数量庞大而造成存储上的较大负担,大大降低了计算复杂度。

2.2 特征加权的CLSVSM

如果单独地以关键词的词频信息来估计共现信息,是基于共现关系来选择词频特征项来表示文本,并没有深层次地挖掘关键词之间潜在语义关系对词频的影响。但事实上,共现潜在语义关系强弱对特征项表达文本信息有着很大的影响,甚至是不可忽略的。因此,为了更好地平衡词频信息和共现潜在语义信息的关系,以及证明二者的影响关系,基于上述词频CLSVSM,本文对已经筛选的词频特征项进行重新估计,为词频权重赋予相应的关键词共现强度,这样选择出来的特征项既表达了文献的词频信息,又表达了文本的共现潜在语义信息,最终构建出特征加权的CLSVSM为:

σ:diσ(di)=(ti1,ti2,ti3,…,tim)T∈Rm

(17)

其中:

(18)

该模型是基于经典向量空间模型权重构建思想[9],它为IDF权重赋予词频而重新估计关键词在文本中的重要性,会优化聚类效果。然而,关键词共现信息与词频信息都对文本表示有较大影响,当一个关键词词频权重高而共现权重低时,说明这个关键词对文本重要程度也不会偏高;而有的词在某一篇文本中,虽然词频权重低,但是共现权重高,那么它对于该文本同样重要;所以,二者忽略其一对文本的表示也有很大影响。因此,对共现权重赋予词频来重新估计该关键词在文本中的权重也是合理和可行的,所构建的新权重综合反映了文本特征项共现信息和词频信息,进而可更好地构建文本表示模型。

该模型相比CLSVSM、词频CLSVSM、TF-IDF模型以及Word2vec文本模型的聚类效果都有提升,在剔除了冗余的词频信息和共现潜在语义信息的基础上,可优化文本表示的模型,提升文本聚类性能。不仅如此,还可以发现,关键词之间的共现关系相比IDF而言,对词频权重影响更大,降低了文本分类的不确定性和混乱程度。

3 实验及结果分析

3.1 实验数据

本文实验的中文数据采集于CNKI分类中信息科学下的3个学科“出版”“图书情报与数字图书馆”“档案及博物馆”,3个学科为3个分类类别。按照文本被引频次降序排列收集数据,总共收集978篇文本。为了更好地验证模型,使数据在各个类别的分布不均衡,其中包含“出版”学科的278篇文本,“图书情报与数字图书馆”学科的330篇文本以及“档案及博物馆”学科的370篇文本。先对收集的数据进行预处理,首先进行文本处理,剔除其中没有关键词的文本和不能进行分词处理的文本,最后得到950篇文本,其中“出版”260篇、“图书情报与数字图书馆”325篇、“档案及博物馆”365篇,1365个关键词。再进行关键词处理,剔除重复关键词,无法统计在文本中频数的关键词也予以剔除,最终得到1240个关键词。因此,最终获得950篇文本,1240个关键词。

本文实验的英文数据收集于Web of Science中信息科学与图书馆科学分类下的数据,同样为了实验的简单性和可信性,同中文收集方式一致,经过简单的数据处理,将无法下载的文本和无关键词文本予以剔除,最终获得文本总数为332篇,其中包含“计算机科学信息系统(computer science information system)”118篇,“计算机科学各学科间的应用(computer science interdisciplinary applications)”52篇,“管理(management)”92篇,最终获得了不重复文本关键词1606个。

3.2 实验评价指标

文本聚类方法很多,本实验采用较为常见且普遍使用的direct K-means聚类算法对实验数据聚类,而聚类效果的优劣则一般通过熵值(Entropy)、纯度(Purity)以及F(F-measure)等量化指标表示。

本文所收集的文本类别共为k类,将其记为Lj(1≤j≤k),通过算法对数据聚类之后得到了k个划分簇,记为Zr(1≤r≤k)。设文献总共有n篇,划分簇Zr和文献类Lj分别包含nj和nr篇文本,其中总共有njr篇相同的文本。评价指标熵值、纯度的表达公式分别记为:

(19)

(20)

对于指标F的引入,是基于准确率(Precision)和召回率(Recall)而定义的调和平均。第i篇文本的准确率和召回率分别定义为:

(21)

(22)

采用每篇文本的准确率和召回率的均值来衡量每一次聚类效果的好坏,分别记为:

(23)

则F值定义为:

(24)

F可以看成是熵值和纯度的调节指标,避免二者中的其中一项过高或者过低对实验结果分析评价的不足。由上述公式可知三者的值域在[0,1]内,纯度和F值越趋近于1,说明文本的分类效果越好,反之则越差;而熵值越趋近于0,说明文本的分类效果越好,反之则越差。

3.3 实验过程

本实验先以收集的文本数据集构建CLSVSM,然后基于文本关键词在文本中的存在频率构建关键词词频向量空间,在CLSVSM基础上引入词频信息重新构建模型,从而建立基于共现信息选择重要词频特征项的词频CLSVSM,最后借鉴经典向量空间模型构建思想,为关键词在文本中的词频权重赋予相应的共现权重,最终获得特征加权的CLSVSM。本实验采用K-means聚类方法对新模型进行聚类分析,同时与各种相关模型比较聚类效果。

基于CLSVSM构建的新模型与直接引入关键词词频的模型聚类效果优劣比较也是本文所关心的问题,因此为了进一步验证关键词在文本中的词频信息对于其共现信息的影响程度和结果,首先基于VSM构建S_VSM(也就是对VSM非0特征项权重以词频权重重新估计),也基于CLSVSM引入词频信息,同时在文本词频向量空间基础上构建了TF-IDF模型,目的是为了比较逆文档频率权重与共现权重对于词频的影响。其实,对于VSM和CLSVSM引入词频信息,是对于词频特征项的选择,相关模型构建更能全方位地比较,从而分析它们的差别。为了提高实验结果的可说明性,分析各个模型的聚类效果时,分别对每个构建的模型进行50次聚类实验,最后以求得的熵值、纯度以及F值这3个指标的平均值对聚类结果进行评价,与基于共现信息和文本词频信息所构建的模型进行比较。

本文通过聚类实验对构建的文本表示模型进行验证,另外,分析了各个模型在不同数据集上的聚类效果,验证了词频在文本语义表达的积极作用,加强了模型的可解释性。实验流程图如图1所示。

图1 实验流程图

3.4 实验结果与评价

基于原始数据的实验结果比较如表1所示。

表1 中文数据下特征加权的CLSVSM与不同模型之间的聚类结果比较

由表1中各个模型基于3个指标的比较分析可以得出,CLSVSM聚类效果优于VSM,而本文所构建的词频CLSVSM模型聚类效果优于CLSVSM,且熵值、纯度和F值标准差几乎为0,也就意味着聚类实验结果趋于稳定,间接反映了词频CLSVSM的稳定性高。除此之外,从表1很容易看到,CLSVSM相比Word2vec文本模型的熵值低,表明Word2vec文本模型分类混乱度较高,基于Word2vec文本模型分类文本时,文本向量表示的冗余信息较多,导致基于熵值分类效果降低。而词频CLSVSM熵值既低于CLSVSM也明显低于Word2vec文本模型,尤其是相比Word2vec文本模型熵值低了0.086,说明基于共现信息消除冗余词频信息的效果是明显的,同时词频CLSVSM熵值也低于CLSVSM,说明该模型也对共现冗余信息进行剔除,提高了聚类效果。在不改变向量空间维数的基础上剔除冗余关键词在该文本的词频和共现信息,大大减少了计算复杂度和数据存储空间。TF-IDF模型相比词频CLSVSM,熵值降低了0.001,纯度和F值分别提高了0.002和0.001。因此得出结论,仅仅引入词频信息所构建的新模型不能更好地表现文本信息。最终构建的特征加权的CLSVSM相比S_VSM聚类效果大大提高,就熵值而言,相比CLSVSM、90%CLSVSM_K、词频CLSVSM、TF-IDF模型、Word2vec文本模型,特征加权的CLSVSM熵值分别降低了0.026、0.031、0.003、0.002、0.09;在纯度方面,分别提高了0.02、0.009、0.008、0.006、0.04;对于F值而言,反映的是综合聚类效果,F值分别提高了0.024、0.007、0.006、0.005、0.052。因此可以看出,该模型在各个聚类指标上都优于其他模型。也就是说,关键词共现信息和词频信息相互作用综合体现了关键词在一篇文献中的重要性,形成新的权重,最终的模型说明在保证聚类效果的前提下,特征加权的CLSVSM聚类效果也有较大提升。

表2 英文数据下特征加权的CLSVSM与不同模型之间的聚类结果比较

在英文文本数据中,特征加权的CLSVSM聚类效果优于CLSVSM和Word2vec文本模型,因为在英文数据处理时,常常有多个单词组成的词组为关键词,或者关键词之间有连接符这些分词软件难以判别且有效提取词频的问题,以至于不能充分提取词频信息,因此将词频信息赋予共现权重来重新估计共现权重效果不是太好,当然英文中一词多义的情况在此忽略。因此,从表2得出结论,词频CLSVSM熵值仍然比Word2vec文本模型和90%CLSVSM_K低于0.003,比CLSVSM熵值低于0.001,这表明基于潜在语义关系剔除冗余词频信息在英文文献同样适用。而特征加权的CLSVSM相比TF-IDF,在熵值和纯度方面相同,而F值提高将近0.012,相比其他模型聚类效果更好。

4 结束语

本文基于共现潜在语义信息引入了词频信息,并将选择出的词频权重赋予特征项共现权重,使关键词特征项更好地表达文本语义信息,基于二者的相互影响关系更加全面地反映关键词在文献中的重要性和代表性。从大数据方面讲,体现出了对于复杂冗余度较高数据集的稀疏除杂的重要性和必要性,从而缩小大数据在文本研究过程中的存储容量。通过合理的实验设计表明,基于关键词潜在语义信息和词频信息的相互作用构建的模型能够提升文本聚类效果。

本文虽然构建了特征加权的CLSVSM,但是其稳定性还有待提高,寻求更加稳定的文本表示模型成为需要探索的问题,因为模型聚类效果依赖关键词词频信息是否能充分提取,对于英文文献关键词词组词频信息不能很好地表达,因此模型在英文数据上聚类效果一般。

猜你喜欢
词频语义聚类
基于词频分析法的社区公园归属感营建要素研究
语言与语义
基于K-means聚类的车-地无线通信场强研究
基于高斯混合聚类的阵列干涉SAR三维成像
“上”与“下”语义的不对称性及其认知阐释
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
一种层次初始的聚类个数自适应的聚类方法研究
认知范畴模糊与语义模糊
以关键词词频法透视《大学图书馆学报》学术研究特色