杨世刚,刘勇国
(电子科技大学 信息与软件工程学院,成都 610054)(∗通信作者电子邮箱liuyg@uestc.edu.cn)
融合语料库特征与图注意力网络的短文本分类方法
杨世刚,刘勇国*
(电子科技大学 信息与软件工程学院,成都 610054)(∗通信作者电子邮箱liuyg@uestc.edu.cn)
短文本分类是自然语言处理(NLP)中的重要研究问题,广泛应用于新闻分类、情感分析、评论分析等领域。针对短文本分类中存在的数据稀疏性问题,通过引入语料库的节点和边权值特征,基于图注意力网络(GAT),提出了一个融合节点和边权值特征的图注意力网络NE-GAT。首先,针对每个语料库构建异构图,利用引力模型(GM)评估单词节点的重要性,并通过节点间的点互信息(PMI)获得边权重;其次,为每个句子构建文本级别图,并将节点重要性和边权重融入节点更新过程。实验结果表明,所提模型在测试集上的平均准确率达到了75.48%,优于用于文本分类的图卷积网络(Text-GCN)、TL-GNN、Text-ING等模型;相较原始GAT,所提模型的平均准确率提升了2.32个百分点,验证了其有效性。
短文本分类;图注意力网络;语料库特征;引力模型;点互信息
社交网络的迅速发展导致了短文本数量爆炸式增长[1],微博、电影评论、新闻标题等短文本在互联网上越来越普遍,如何从海量短文本中挖掘出有效信息日益受到关注,对于短文本处理的需求日益突显[2]。短文本分类是自然语言处理(Natural Language Processing, NLP)领域一项重要的基本任务,其旨在为未标记文本分配最合适的预定义标签[3]。短文本分类任务有着广泛应用,包括新闻标题分类、情感分析、问答系统等。现有研究通常聚焦长文档分类,但由于短文本中缺乏足够上下文信息,面临数据稀疏性问题,将这些模型直接应用在短文本上的效果较差[4]。
为了提升短文本分类的性能,一些针对短文本设计的方法被不断提出。这些方法的思路主要分为两类:一类是为短文本设计更优的模型结构以挖掘潜藏语义信息,其侧重于改变模型体系结构以适应短文本。虽然这些模型性能良好,但仍不能解决短文本中的数据稀疏性问题。另一类侧重于引入外部知识丰富短文本的语义,如引入单词的概念和句子的主题等。这些模型丰富了句子语义特征,取得了很好的效果。但引入外部知识需要更加复杂的方法来获取,如通过链接知识图谱获取单词的概念、通过主题模型来获取句子的主题,这增加了模型复杂度。
为了更加方便简洁地增加短文本的语义特征,本文考虑将语料库特征融入到短文本中,而无需引入其他额外知识。在图注意力网络(Graph ATtention network, GAT)[5]的基础上,本文提出了一个新模型NE-GAT(Node-Edge GAT),其结合了语料库的节点和边权值特征,并将其融入到节点特征信息的更新过程。其中,引力模型(Gravity Model, GM)[6]被用作评估节点权重,点互信息(Pointwise Mutual Information, PMI)被用作评估单词间边权重。然后,给每个句子构建一个文本级别图,将文本分类视为图分类问题,并把节点权重和边权值融入到节点特征更新过程中。
现有文本分类模型主要包括两类:基于传统的机器学习方法和基于深度学习的方法。传统的机器学习模型训练耗时少,如支持向量机(Support Vector Machine, SVM)[7]、朴素贝叶斯(Naive Bayesian, NB)等,但需要特征工程,要消耗大量人力物力。随着计算力的提高,一些基于端到端的深度学习方法被接连提出,如卷积神经网络(Convolutional Neural Networks, CNN)[8]、循环神经网络(Recurrent Neural Network, RNN)[9]、Transformer[10]等。这些方法不需要特征工程,并且在长文本分类上表现优异,但由于短文本面临数据稀疏性问题,将这些模型直接应用在短文本上的效果较差[4]。
因此,一些针对短文本设计的改进方法被不断提出:一类是为短文本设计更优的模型结构。文献[11]中提出了一种用于短文本分类的主题记忆网络,它具有一种主题存储机制,并利用短文本的潜在主题表示丰富语义信息。文献[12]中提出了一种聚类门控卷积神经网络挖掘短文本中隐藏语义信息。文献[13]中提出了利用多头注意力记忆网络增强短文本语义捕获能力。文献[14]中通过长短期记忆(Long Short-Term Memory, LSTM)网络、CNN和Capsule Network进行不同层面的特征提取,并将其进行融合以增强语义特征。另一类侧重于引入其他知识以缓解短文本的稀疏性问题,如:文献[4,15]中引入了单词的概念来丰富句子语义,文献[16-17]中引入了句子的主题信息。虽然这些模型丰富了句子的语义特征,取得了很好效果,但另一方面也增加了模型复杂程度。
近年来,图神经网络(Graph Neural Network, GNN)引起了学术界的广泛关注,在文本分类任务上已有许多应用。文献[18]中提出了用于文本分类的图卷积网络(Text Graph Convolution Network, Text-GCN)模型,为每个语料库构建一个异构图,其中每个文本及其包含的单词作为节点,单词间的点互信息和文档与单词之间的词频逆文档频率作为边权重,将文本分类作为节点分类任务。在Text-GCN的基础上,文献[19]中提出了Tensor-GCN(Tensor Graph Convolution Network),基于语义、语法和序列构造了三个图,节点信息可以在每个图内或图之间传输。但是,上述方法属于半监督分类方法,其构建的图结构和参数都依赖于语料库,训练后不能修改,难以在线测试。为解决这个问题,后续研究主要集中在为每个句子构建一个文本级别图。文献[20]中提出了一种文本级别的图神经网络,为每个文本构造一个图,并通过消息传播机制更新节点。文献[21]中同样地为每个句子构建文本级别图,然后再使用GGNN(Gated GNN)[22]更新节点。然而,上述方法都是针对长文档,短文本中仍然存在数据稀疏问题。对于短文本,文献[17]中提出了HGAT(Heterogeneous GAT),引入主题和实体丰富句子语义。文献[23]中提出了利用GAT进行半监督短文本分类。然而,这两个模型为每个语料库建立了一个图,仍然有无法对新样本进行测试的缺点。
现存短文本分类方法未充分利用语料库特征信息,NE-GAT模型能够利用无监督方法提取的语料库特征,提升短文本分类效果。本文方法的整体流程如图1所示,首先利用引力模型(GM)计算节点重要性评分,利用PMI计算边权值,然后为语料库的每个句子构建文本级别图,并在节点更新时融入节点和边权重。
图1 本文方法总体流程Fig. 1 Overall flow chart of proposed method
对于语料库C,其包含个句子,每个句子可表示为,语料库句子集合表示为。利用分词工具NLTK对所有句子进行分词后得到个不重复单词,每个单词表示为wj,语料库单词集合表示为。为语料库C构建一个全局无向图,其中句子集合S和单词集合W被视作图GC的节点集合,句子和单词之间的包含关系用来建立图的边集合M,即如果句子si包含词wj,则为节点si与词wj构建无向边,并将其加入边集合M中。图2给出了利用TREC语料库构建的部分无向图,其中句子节点用灰色表示,单词节点利用白色表示,如果两类节点存在边,则说明此句子中包含该单词。为了便于后续计算,定义直接相连的两个节点间的长度为1,两个节点间的距离为最短路径的长度,如单词节点“company”到句子节点“001”和“0126”的距离为1,到单词节点“inhabit”和“find”的距离为2。
图2 文档-词语图示例Fig. 2 Example of document-word graph
在构建好图之后,遵循文献[18]使用引力模型(GM)计算图中单词节点的重要性权重。给定节点,其重要性评分Ir计算式如下:
式中:kr表示节点ur度数;kt表示节点ut度数;drt表示节点ur和ut间的最短距离。GM利用节点的度和节点间的距离得到重要性评分,当某个单词节点的评分高,根据式(1),该节点的度数高,说明该单词出现在句子中的频率高。
单词间越相关,可认为词间边权重越大,点互信息用于衡量事物间相关性,本文利用点互信息PMI计算单词间边权重。给定单词,点互信息计算式为:
经过前面两个步骤,获取了语料库节点和边权值,原始GAT没有考虑图中节点和边权值,在NE-GAT更新节点过程中,将前两步得到的节点和边权值融入到模型中。给定句子,包含d个单词,表示为,其中wd表示句子s的第d个单词。构建图,句子s中的单词被视作图G的顶点,单词的邻居关系用于构建边集合E,每个单词节点与其周围q跳邻居进行连接,q跳为语序距离,两相邻单词节点的距离为1。图3给出了NE-GAT的处理流程,主要分为3个部分:文本级别图构建、图节点更新和图分类。给定电影评论“It’s tough to watch, but it’s a fantastic movie”,首先将其进行分词获得单词节点,然后根据语序构建节点间连接,图中每个节点与跳邻居进行连接,对于节点“to”,在语序上,它的1跳邻居节点是“tough”和“watch”。为方便显示,图3中节点自环边被省略。构建好图G后,对于图中每个节点,它通过其邻居节点特征来更新。节点特征学习完成后,导出所有节点信息用于分类。
图3 NE-GAT模型的处理流程Fig. 3 Processing flow of NE-GAT model
式(3)~(6)描述了NE-GAT模型的节点信息更新过程。如式(3)所示,节点wd的特征向量hd由两部分构成:预训练词向量xd和节点重要性评分Id。在原始图注意力网络计算当前节点与邻居节点间得分时,将利用PMI计算获得的边权值信息融入,如式(6)所示。
其中:Zd表示节点wd邻居节点集合;βf表示节点wd与邻居节点wf的注意力得分;W1表示参数矩阵。图中节点更新后,其节点信息汇聚作为句子最终分类特征H,通过线性层获得类别概率p。
采用交叉熵作为训练损失函数L,如式(9)所示:
在真实的文本分类数据集上评估模型性能,并将本文模型与基线模型进行比较。首先详细介绍6个短文本数据集的基本情况和实验中的参数设置,然后将NE-GAT与7种基线方法进行比较以评价其在短文本分类中的性能,最后对NE-GAT进行参数分析。仿真实验采用Python3.6编写,通过RTX 2080ti GPU服务器运行。
为了评估模型分类效果,本文在常用短文本数据集上进行实验,表1给出了数据集的详细特征。由于所有数据集都没有标准验证集,随机选择训练集的10%作为验证集。
1)Biomedical数据集,是BioASQ网站上公布的挑战数据的一个子集,包含了20个类别的19 974篇论文标题。
2)Dblp数据集,包含6个类别的计算机科学的论文标题。
3)MR数据集,是一个电影评论数据集,包含好评和差评2个类别。
4)SST1数据集,是MR数据集的一个扩展版本,其定义了5个标签,包括非常差、差、中性、好和非常好。
5)SST2数据集,是MR数据集的一个扩展版本,其中包含好评和差评2个类别的电影评论。
6)TREC数据集,是一个问答系统的问句数据集,其定义了6种问题类型。
表1 数据集信息Tab. 1 Dataset information
采用Adam优化器[24]对参数进行更新,参数的学习率设置为0.001。批处理大小设置为256,总训练轮次设置为100轮。为防止过度拟合,将dropout比率设置为0.5,L2正则化参数设置为0.000 1。如果连续10轮验证集的准确率没有提升,则停止训练。每个单词节点的嵌入维数为300,用随机向量或预训练GloVe[25]向量进行初始化。每个文本级别图中,单词只与其语序上距离1跳的邻居连接。将模型在测试集上的准确率(Accuracy)作为实验评估指标,表示模型分类正确的样本数在总测试样本数中所占比例,准确率越高,模型分类能力越强,其定义如式(10)所示:
式中:PT表示预测正确的样本数;Total表示总的测试样本数。
本文将NE-GAT模型与以下文本分类基准方法进行对比,基线模型的参数设置为原文献中提到的参数,单词表示使用与本文相同的预训练词向量:
1)Text-CNN[8],通过多个卷积核抽取文本特征,进而实现文本分类。
2)Bi-LSTM[9],利用2个LSTM分别提取句子前向和后向序列特征,并连接起来当作文本分类的特征。
3)Text-GCN[18],将每个语料库视为包含文档和单词的异构图,然后采用图卷积网络进行文本分类任务。
4)TL-GNN(Text-level-GNN)[20],为每个输入文本构造一个图,并利用消息传递机制更新节点。
5)STCKA[15],一种融合单词及其概念特征的短文本分类模型,它将每个短文本及其相关概念分别编码,并连接这两种特征进行分类。
6)DE-CNN[4],该模型利用卷积神经网络融合了上下文相关概念,并用于短文本分类。
7)Text-ING(Text classification method for INductive word representations via Graph neural networks)[21],基于带门控的图神经网络文本分类模型。
首先对模型在不同数据集上的测试集准确率进行分析对比,结果如表2所示。可见,NE-GAT的平均准确率最高,达到75.48%,在大部分数据集上达到最优结果,表明NE-GAT能够利用节点和边权值丰富短文本语义。用于对比的图神经网络模型均针对长文本设计,面对短文本遭遇数据稀疏性问题,造成效果不佳。传统卷积神经网络Text-CNN在短文本上保持着良好性能,其平均准确率超过绝大多数基线方法,说明卷积操作能够很好地挖掘短文本n-gram特征。与Text-CNN相比,Bi-LSTM平均准确率较低,原因在于短文本中的单词数过少,其语序对句子语义理解没有太大帮助。尽管STCKA和DE-CNN通过引入单词的概念解决数据稀疏性问题,但其性能表现仍未超越NE-GAT,说明语料库的全局特征能够更好地帮助语义特征的理解。
尽管NE-GAT的实验结果较好,但不能评估各特征的贡献程度,故设计消融实验分析各模块对模型精度提升的作用,结果如表3所示。可见,单独融入节点或边权值,相较原始GAT都有提升,且NE-GAT相较原始GAT,平均精度提升了2.32个百分点,表明融入点和边权重能更好地表示语料库全局特征,指导更新过程。
表4给出了节点与不同跳数的邻居连接时,即q取不同数值时,测试集的精度变化情况。可见,当节点与跳邻居进行连接时,其平均精度最高,继续增大q,平均精度变化不大,表明NE-GAT能通过节点间连接关系汇聚不直接相连的节点信息。
表5给出了不同层数的NE-GAT在测试集上的精度变化情况,随着层数逐渐加深,NE-GAT的平均精度呈现下降趋势,表明随着层次的增加,节点特征变得过于平滑,最终所有节点学习到相同表达,无法学习能够区分语义的特征。
表2 不同模型的测试集准确率比较Tab. 2 Comparison of test set accuracy of different methods
表3 各模块的消融实验结果(准确率)Tab. 3 Ablation experimental results of each module (accuracy)
表4 不同邻居数的测试精度比较Tab. 4 Test accuracy comparison of different numbers of neighbors
表5 不同层数的测试精度比较Tab. 5 Test accuracy comparison of different numbers of layers
针对短文本分类方法不能很好地融入语料库特征的问题,基于图注意力网络,本文提出了一种新的文本分类方法NE-GAT。首先利用无监督方法学习语料库特征,为语料库构建无向图,将句子及其包含的词语视作图节点,根据句子和词语间的包含关系构建节点间的连接边;然后采用GM计算节点重要性评分,构建词语与词语间的PMI为边权值,最终将文本分类问题转换为图分类问题。NE-GAT利用词语间的顺序关系为文本构造文本级别的图,将语料库特征融入节点更新。实现结果表明,NE-GAT的性能优于其他用于对比的方法,同时验证了语料库节点和边权值的有效性。另外,由于节点重要性评估时需为每个语料库构建图,当语料库过大时,图中节点过多,计算节点重要性得分所需时间将大幅提升,后续工作将考虑改进引力模型(GM)以适应语料库变化,如减少求解节点间的最短距离。
[1] ALSMADI I M, GAN K H. Review of short-text classification [J]. International Journal of Web Information Systems, 2019, 15(2): 155-182.
[2] 范国凤,刘璟,姚绍文,等.基于语义依存分析的图网络文本分类模型[J].计算机应用研究,2020,37(12):3594-3598.(FAN G F, LIU J, YAO S W, et al. Text classification model with graph network based on semantic dependency parsing [J]. Application Research of Computers, 2020, 37(12): 3594-3598.)
[3] TAO H Q, TONG S W, ZHAO H K, et al. A radical-aware attention-based model for Chinese text classification [C]// Proceedings of the 2019 33rd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 5125-5132.
[4] XU J Y, CAI Y, WU X, et al. Incorporating context-relevant concepts into convolutional neural networks for short text classification [J]. Neurocomputing,2020, 386: 42-53.
[5] VELIČKOVIĆ P, CUCURULL G,CASANOVA A, et al. Graph attention networks [EB/OL].[2021-02-10]. https://arxiv.org/pdf/1710.10903.pdf.
[6] LI Z, REN T, MA X Q, et al. Identifying influential spreaders by gravity model [J]. Scientific Reports, 2019, 9: Article No.8387.
[7] DILRUKSHI I, DE ZOYSA K. A feature selection method for twitter news classification [J]. International Journal of Machine Learning and Computing, 2014, 4(4): 365-370.
[8] KIM Y. Convolutional neural networks for sentence classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2014: 1746-1751.
[9] LIU P F, QIU X P, HUANG X J. Recurrent neural network for text classification with multi-task learning [C]// Proceedings of the 2016 25th International Joint Conference on Artificial Intelligence. California: IJCAI Organization, 2016: 2873-2879.
[10] VASWANI A, S HAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017:6000-6010.
[11] ZENG J C, LI J, SONG Y, et al. Topic memory networks for short text classification [C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL,2018: 3120-3131.
[12] ZHANG H D, NI W C, ZHAO M J, et al. Cluster-gated convolutional neural network for short text classification [C]// Proceedings of the 2019 23rd Conference on Computational Natural Language Learning. Stroudsburg: ACL, 2019:1002-1011.
[13] 张小川,戴旭尧,刘璐,等.融合多头自注意力机制的中文短文本分类模型[J].计算机应用,2020,40(12):3485-3489.(ZHANG X C, DAI X Y,LIU L, et al. Chinese short text classification model with multi-head self-attention mechanism [J]. Journal of Computer Applications, 2020, 40(12):3485-3489)
[14] 杨朝强,邵党国,杨志豪,等.多特征融合的中文短文本分类模型[J].小型微型计算机系统,2020,41(7):1421-1426.(YANG Z Q, SHAO D G,YANG Z H, et al. Chinese short text classification model with multi-feature fusion [J]. Journal of Chinese Computer Systems, 2020, 41(7): 1421-1426.)
[15] CHEN J D, HU Y Z, LIU J P, et al. Deep short text classification with knowledge powered attention [C]// Proceedings of the 2019 33rd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 6252-6259.
[16] 郑诚,董春阳,黄夏炎.基于BTM图卷积网络的短文本分类方法[J].计算机工程与应用,2021,57(4):155-160.(ZHENG C,DONG C Y, HUANG X Y. Short text classification method based on BTM graph convolutional network [J]. Computer Engineering and Applications,2021, 57(4): 155-160.)
[17] HU L M, YANG T C, SHI C, et al. Heterogeneous graph attention networks for semi-supervised short text classification [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg: ACL, 2019:4821-4830.
[18] YAO L, MAO C S, LUO Y. Graph convolutional networks for text classification [C]// Proceedings of the 2019 33rd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2019: 7370-7377.
[19] LIU X E, YOU X X, ZHANG X, et al. Tensor graph convolutional networks for text classification [C]// Proceedings of the 2020 34th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2020: 8409-8416.
[20] HUANG L Z, MA D H, LI S J, et al. Text level graph neural network for text classification [C]// Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg: ACL,2019: 3444-3450.
[21] ZHANG Y F, YU X L, CUI Z Y, et al. Every document owns its structure: inductive text classification via graph neural networks [C]// Proceedings of the 2020 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL, 2020: 334-339.
[22] LI Y J, ZEMEL R, BROCKSCHMIDT M, et al. Gated graph sequence neural networks [EB/OL]. [2021-02-20]. https://arxiv.org/pdf/1511.05493.pdf.
[23] 暨南大学.一种基于图注意力网络的中文短文本分类方法:中国,202011141057.5[P].2021-03-02.(Jinan University. A Chinese short text classification method based on graph attention networks: CN, 202011141057.5 [P]. 2021-03-02.)
[24] KINGMA D P, BA J L. Adam: a method for stochastic optimization [EB/OL]. [2021-02-20]. https://arxiv.org/pdf/1412.6980.pdf.
[25] PENNINGTON J, SOCHER R, MANNING C D. GloVe: global vectors for word representation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL,2014: 1532-1543.
Short text classification method by fusing corpus features and graph attention network
YANG Shigang, LIU Yongguo*
(School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu Sichuan610054,China)
Short text classification is an important research problem of Natural Language Processing (NLP), and is widely used in news classification, sentiment analysis, comment analysis and other fields. Aiming at the problem of data sparsity in short text classification, by introducing node and edge weight features of corpora, based on Graph ATtention network (GAT),a new graph attention network named Node-Edge GAT (NE-GAT) by fusing node and edge weight features was proposed. Firstly, a heterogeneous graph was constructed for each corpus, Gravity Model (GM)was used to evaluate the importance of word nodes, and edge weights were obtained through Point Mutual Information (PMI) between nodes. Secondly, a text-level graph was constructed for each sentence, node importance and edge weights were integrated into the update process of nodes. Experimental results show that, the average accuracy of the proposed model on the test sets reaches 75.48%, which is better than those of the models such as Text Graph Convolution Network (Text-GCN),Text-Level-Graph Neural Network (TL-GNN) and Text classification method for INductive word representations via Graph neural networks (Text-ING). Compared with original GAT, the proposed model has the average accuracy improved by 2.32 percentage points, which verifies the effectiveness of the proposed model.
short text classification; Graph Attention Network (GAT); corpus feature; Gravity Model (GM); Pointwise Mutual Information (PMI)
TP391
A
1001-9081(2022)05-1324-06
10.11772/j.issn.1001-9081.2021030508
2021⁃04⁃06;
2021⁃06⁃18;
2021⁃06⁃21。
国家重点研发计划项目(2017YFC1703905);国家自然科学基金资助项目(81803851);四川省重点研发计划项目(2020YFS0372);四川省应用基础研究计划项目(2021YJ0184)。
杨世刚(1998—),男,四川广安人,硕士研究生,主要研究方向:文本分类; 刘勇国(1974—),男,四川绵阳人,教授,博士,主要研究方向:数字医疗、计算健康、人工智能、大数据。
This work is partially supported by National Key Research and Development Program of China (2017YFC1703905), National Natural Science Foundation of China (81803851), Key Research and Development Program of Sichuan Province (2020YFS0372), Application Basic Research and Development Program of Sichuan Province (2021YJ0184).
YANG Shigang, born in 1998, M. S. candidate. His research interests include text classification.
LIU Yongguo, born in 1974, Ph. D., professor. His research interests include digital medicine, computing health, artificial intelligence, big data.