杨先凤,赵家和,李自强
(1.西南石油大学 计算机科学学院,成都 610500; 2.四川师范大学 影视与传媒学院,成都 610066)(∗通信作者电子邮箱565695835@qq.com)
融合字注释的文本分类模型
杨先凤1*,赵家和1,李自强2
(1.西南石油大学 计算机科学学院,成都 610500; 2.四川师范大学 影视与传媒学院,成都 610066)(∗通信作者电子邮箱565695835@qq.com)
针对传统文本特征表示方法无法充分解决一词多义的问题,构建了一种融合字注释的文本分类模型。首先,借助现有中文字典,获取文本由字上下文选取的字典注释,并对其进行Transformer的双向编码器(BERT)编码来生成注释句向量;然后,将注释句向量与字嵌入向量融合作为输入层,并用来丰富输入文本的特征信息;最后,通过双向门控循环单元(BiGRU)学习文本的特征信息,并引入注意力机制突出关键特征向量。在公开数据集THUCNews和新浪微博情感分类数据集上进行的文本分类的实验结果表明,融合BERT字注释的文本分类模型相较未引入字注释的文本分类模型在性能上有显著提高,且在所有文本分类的实验模型中,所提出的BERT字注释_BiGRU_Attention模型有最高的精确率和召回率,能反映整体性能的F1-Score则分别高达98.16%和96.52%。
一词多义;字注释;基于Transformer的双向编码器;双向门控循环单元;注意力机制;文本分类
随着中国互联网行业的快速发展,根据第43次《中国互联网发展趋势报告》[1],截至2020年12月,中国互联网用户已达9.89亿,互联网普及率达70.4%。人们在网络上随时随地获取自己热爱领域的优质文本信息,已经超越传统纸质阅读成为了新的阅读热潮。用户日常面临海量的文本信息,对文本信息进行文本分类能够使得网络运营商推送用户感兴趣的某些文本信息,同时提高用户的阅读体验。如何对用户感兴趣的文本信息进行更加精准的分类,成为了当前自然语言处理(Natural Language Processing, NLP)领域下文本分类技术面临的热点问题。
文献[2]中提出了基于卷积神经网络(Convolutional Neural Network, CNN)的文本分类,句子的表示采用预训练好的词向量(Word Embedding)矩阵,利用多个不同的CNN卷积核提取输入文本的不同特征,进一步证明了优化词向量和特征提取能力可以提高文本分类准确度。文献[3]中提出了一种基于多通道CNN模型,通过引入多通道分布式词表示,获取更多特征信息来改善文本分类效果。然而,CNN在处理文本时存在无法考虑语言结构的问题,忽略了词语之间的依存关系。文献[4]中提出了一种基于循环神经网络(Recurrent Neural Network, RNN)的多任务学习的文本分类模型,利用RNN具有“记忆”功能来捕获序列之间的依赖关系。文献[5]中引入了双向RNN(Bidirectional RNN, BiRNN)进行手写文本分类,BiRNN将序列的正向信息和逆向信息结合训练网络。文献[6]中利用长短期记忆(Long Short‑Term Memory, LSTM)网络进行短文分类,避免了传统循环神经网络的梯度爆炸、梯度消失和长期依赖等问题;但是LSTM模型参数过多,模型较复杂。文献[7]中提出了门控循环单元(Gated Recurrent Unit, GRU)网络对LSTM进行部分修改,模型更简单,在保证拥有LSTM功能的同时提升了训练效率。
文献[8]中提出了词的分布式表示,通过一种较低维度的稠密向量表示,将词信息分布式地表示在稠密向量的不同维度上,具备一定的语义表示能力。文献[9]中提出了Word2Vector词向量训练工具,为了学习更具意义的词向量,包括了CBOW(Continuous Bag-of-Words)和Skip-Gram两种不同训练模型。CBOW模型思想通过前后单词预测当前单词,而Skip-Gram思想是通过当前单词预测其前后单词。Word2Vector训练出的词向量是唯一不变的,无法解决一词多义的问题。文献[10]中提出了Doc2Vector模型,目的是为了保存句子上下文信息,解决词序和语义问题,可将任意长度句子表示为固定长度的句向量。文献[11]中提出了ELMo(Embeddings from Language Models),基于动态词向量的思想,通过语言模型得到词的单一表示后根据上下文语境不同再调整词向量,从而使在不同语境下的词向量表示不同。文献[12]中提出了基于多层Transformer[13]的双向编码器(Bidirectional Encoder Representations from Transformers, BERT),通过大量语料训练,考虑词语在不同上下文的表达应该不同,形成融合位置信息和上下文信息的动态词向量,并可通过训练好的BERT模型获取指定句子的句向量,该句向量能够较充分地表示句子意思。
上述方法对文本分类作出的贡献主要在优化词向量和特征提取部分,但是在这两部分还存在更多的提升空间需要去研究。为了更加准确地进行文本分类,需要设计出更加完善的文本表示方法以及充分的特征提取网络。针对以上问题,本文提出了一种融合BERT字注释的文本分类模型。在文本表示部分,由于字典和词典中往往包含这一个字或词的各种注释信息,这些注释能够非常准确地描述这个字词,BERT可以将注释信息转换为句向量,将注释句向量和字嵌入向量拼接作为该字基于上下文的文本表示,解决一词多义问题。在特征提取部分,使用双向GRU(Bidirectional GRU, BiGRU)网络提取文本双向特征,在BiGRU网络后引入注意力(Attention)机制[14],计算注意力概率分布,获得具有重要性分布的特征表示,增强特征提取能力。
文本分类是自然语言处理的一个重要分支,目的是将给定文本归类为预设定的类别。文本分类应用广泛,包含新闻分类、情感识别和垃圾邮件过滤等。随着大数据和人工智能时代的到来,文本分类的研究由传统的基于规则匹配方法转向机器学习特别是深度学习方法。传统的机器学习算法如K近邻(K-Nearest Neighbor, KNN)[15]、支持向量机(Support Vector Machine, SVM)[16]和朴素贝叶斯(Naive Bayesian, NB)[17]等在进行文本分类时通常存在无法学习较深的文本语义、准确率较低和数据稀疏等问题。
基于深度学习的文本分类方法能够通过神经网络去提取更多的文本特征,进行自动分类。这类方法通常分为两个主要步骤:一是将输入文本表示为合适的向量矩阵;二是选择合适的神经网络,如采用CNN、RNN来提取文本特征信息完成文本分类。本文选用BiGRU结合Attention机制来提取文本特征信息。
文本表示是自然语言处理中的基础工作,将词表示成固定长度的稠密向量称为词向量,又叫词嵌入(Word Embedding)。词向量大幅度提升了神经网络处理文本数据的能力。文本表示的好坏直接影响到下游网络进行文本分类的效果。本文使用BERT模型对字典注释信息编码,获取句级别的注释向量。
图1 BERT模型结构Fig. 1 Structure of BERT model
Transformer是一个Encoder-Decoder结构,由多个编码器和多个解码器堆叠构成。BERT模型中只采用了Transformer的Encoder部分,其结构如图2所示。编码器由多头自注意力机制(Multi-Head Self-Attention)、残差网络和前馈网络组成,可将输入信息转化成特征向量。
GRU是对LSTM的一种效果很好的变体,GRU将LSTM的忘记门和输入门合成了一个单一的更新门,同样还混合了细胞状态和隐藏状态以及其他一些改动,它比LSTM结构更简单,参数更少,收敛性更好,而且很好地解决了RNN中的长依赖问题。GRU由更新门和重置门构成,具体结构如图3所示。
图2 Transformer Encoder结构Fig. 2 Structure of Transformer Encoder
图3 GRU结构Fig. 3 GRU structure
重置门用来控制前一状态有多少信息被写入到当前的候选集上,重置门越小,前一状态的信息被写入得越少。更新门用来控制前一时刻的状态信息引入到当前状态的程度,更新门的值越大,前一时刻的状态信息被引入得越多。GRU模型的更新方式如式(1)~(4)所示:
Attention机制使网络模型对少量重要信息重点关注学习,关注学习表现为权重系数的计算,权重越大表示对应的特征信息重要程度越大。Attention机制被广泛应用于机器翻译、语音识别、词性标注等领域,且表现较优。
本文提出了一种融合BERT字注释、双向GRU和注意力机制的文本分类模型,其模型结构如图4所示。
图4 本文模型结构Fig. 4 Proposed model structure
本文模型由文本向量化、文本特征提取和文本分类器三部分组成。文本向量化的目的是将输入文本转为向量矩阵,向量矩阵由字嵌入和BERT对字注释编码拼接所得。文本特征提取部分采取BiGRU网络提取文本篇章语义信息,Attention机制对BiGRU输出特征计算序列的重要性分布,输出包含注意力概率分布的文本特征表示。文本分类器部分采用Dropout方法[18]防止过拟合,通过Softmax分类器得出文本不同类别概率,达到了预测文本类别的效果。
文本向量化是将文本转化为向量形式表示,所表示的向量可以体现文本的特征信息,本文提出了将字嵌入和注释向量拼接作为文本向量化方式。
2.1.1 字嵌入
2.1.2 注释向量
BERT模型对输入文本编码可以得到两部分向量:一部分是字符级别的向量,即输入文本的每个字符对应的向量表示;另一部分是句向量,即BERT模型输出的最左边[CLS]符号的向量,BERT模型认为[CLS]向量可以代表整个句子的语义。BERT的输出如图5所示。
图5 BERT模型的输出Fig. 5 Output of BERT model
注释是对一个字所表达含义的解释,一个字或词在不同语境下具有不同的意思。本文选择通过BERT模型对语料库所有字注释信息进行编码,获得句子级别的向量(句向量)。一个字有多条注释,一条注释对应一个句向量。为了对输入语句中每个字选择出符合语境的注释句向量,还需要通过BERT对每个字结合上下文编码后得到语境句向量,注释句向量的选择方法通过余弦相似度(Cosine Similarity)计算不同注释句向量与语境句向量的相似度,相似度最高的注释向量即为当前字对应的注释信息。
假设输入句子中第i个字有k条注释,BERT对k条注释进行句向量编码得到k*m的矩阵A,BERT对的上下文进行句向量编码得到1*m的向量t,则在当前语境下对应的注释是t和A的k条向量计算余弦相似度的最大值。
2.1.3 融合注释向量
在训练过程中,本文模型的字嵌入矩阵和其他模型参数会进行更新,以达到最佳分类效果。
本文使用BiGRU网络提取文本向量化后的特征信息,并引入注意力机制计算特征向量的注意力概率分布。
循环神经网络是具有记忆功能的网络,可以发现样本之间的序列关系,是处理序列样本的首选模型。BiGRU是双向门控循环单元,由于单向GRU只能依据之前时刻的时序信息来预测下一时刻的输出,在语言类任务中,下一时刻的输出由之前状态和未来状态共同预测得到显得尤为重要。而BiGRU增加反向时序信息传递,对于每一时刻,输入会同时提供给两个方向相反的GRU,输出由这两个单向GRU共同决定。BiGRU相较单向GRU能够学习到双向长期依赖关系,提取特征更丰富,且实验结果表明BiGRU的表现优于单向GRU。BiGRU的结构如图6所示。
图6 BiGRU结构Fig. 6 BiGRU structure
本文在BiGRU模块之后引入注意力机制,可以生成含有注意力概率分布的文本语义特征表示,突出重要特征信息对文本分类结果的影响,改善模型分类效果。注意力机制中文本特征向量的计算过程如式(8)~(10)所示:
本文引入Dropout方法防止过拟合,采用Softmax回归模型对Dropout后文本特征进行多分类。预测文本类别的计算如式(11)~(12)所示:
通过全连接网络将特征向量映射到N维向量上,其中N为类别个数,并对其通过Softmax计算得到在每个类别上的概率值,是概率值最高的类。
本文提出了融合字注释模型分类算法,具体步骤如下:
算法1 融合字注释模型分类算法。
步骤2 对输入中每个字通过固定滑动窗口获取充分体现每个字汉语意思部分的上下文,并对其进行BERT编码获得句向量,通过新华字典,对输入每个字的注释信息BERT编码获得句向量,求与矩阵中余弦相似度最高的句向量作为该字的注释信息。
步骤3 输入每个字的字向量和BERT注释向量拼接得到E_B,将其作为文本向量化结果。
步骤4 将E_B输入BiGRU网络,再接Attention网络,提取带注意力值的特征向量。
步骤5 将步骤4得到的特征向量经Dropout后输入Softmax分类器进行分类训练,输出文本分类模型。
本文选择在以下两个数据集上做对比实验。
数据集1是由清华自然语言处理实验室提供的THUCNews新闻文本分类的数据集。THUCNews是根据新浪新闻RSS订阅频道2005—2011年间的历史数据筛选过滤生成。从THUCNews中抽取了80 000条新闻数据,数据类别为体育、财经、房产、家居、教育、科技、时尚、时政、游戏、娱乐,各8 000条,训练集、测试集和验证集的样本数比例为6∶1∶1,其中,训练集总样本数为60 000条,测试集和验证集的总样本数均为10 000条。
数据集2是新浪微博情感分类数据集,从中随机抽取正负样本数各6 000条。将这12 000条数据作为实验数据集,数据类别分为正向情感和反向情感两类,各6 000条,训练集、测试集和验证集的样本数比例为4∶1∶1。
本文对所有实验模型的分类性能评价指标选择采用精确率(Precision)、召回率(Recall)和F1分数(F1-Score)。
精确率的计算如式(14)所示:
召回率的计算如式(15)所示:
F1分数综合了精确率和召回率,是反映整体的指标,F1分数越高说明实验方法越有效。F1分数的计算如式(16)所示:
其中:TP(True Positive)表示真正例;FP(False Positive)表示假正例;FN(False Negative)表示假负例;TN(True Negative)表示正负例。
为了验证将注释信息融入文本向量化阶段的有效性和BERT字注释_BiGRU_Attention模型在拥有更优的特征提取能力后的分类效果更好,本文选择了在THUCNews数据集上使用多个目前在中文文本分类任务上应用广泛且效果较好的网络结构以及引入BERT字注释网络结构作为baseline模型进行对比实验。用于对比的模型包括:TextCNN、LSTM、BiGRU、Word2Vec_TextCNN、Word2Vec_LSTM、Word2Vec_BiGRU、BERT字注释_TextCNN、BERT字注释_LSTM、BERT字注释_BiGRU。
根据BERT字注释_BiGRU_Attention对两个数据集分类的F1分数和模型损失值对模型参数进行调整,主要是Embedding维度和BiGRU节点数,经多次实验后模型参数设置如表1所示。
在数据集1上进行对比的实验结果如表2所示,可以看出使用了BERT字注释的网络结构的F1分数均高于字嵌入网络结构和Word2Vec网络结构。由此可知,在文本表示阶段引入BERT字注释后,同一个字在不同语境下文本向量化结果不同,相较于Word2Vec和字嵌入形成的静态字向量,对语义消歧有一定的帮助,BERT字注释和字嵌入拼接丰富了文本特征信息,增加的BERT字注释特征信息对后续网络进行文本分类产生积极影响。
通过表2还可以看出,使用了BiGRU网络结构的F1分数相较TextCNN和LSTM网络结构分别提高了1.16个百分点和3.62个百分点。在融入BERT字注释,丰富输入特征后,BiGRU的优势更能体现出来,BERT字注释_BiGRU的F1分数相较BERT字注释_TextCNN提高了2.48个百分点,表明BiGRU网络通过提取双向时序特征信息,有效学习到了长文本中的长期依赖关系,使分类效果得到显著提升。与BERT字注释_BiGRU网络相比,本文提出的引入Attention机制后的BERT字注释_BiGRU_Attention网络,通过Attention机制对BiGRU提取的不同特征信息进行权重分配,在增强特征提取能力的同时进一步提高了文本分类的F1分数,其F1分数达到了98.16%。
表1 模型参数Tab. 1 Model parameters
表2 数据集1上各模型的指标对比Tab. 2 Indicator comparison of different models on dataset 1
在数据集2上进行对比实验的结果如表3所示,融入字注释信息的模型在短文本的情感分类任务上是可行的,融入字注释信息对TextCNN网络的性能提升相对较多。BERT字注释_BiGRU_Attention仍然可以取得最高的F1分数,达到了96.52%,但是在短文本情感分类数据集上,模型性能提升效果并不是很好。
表3 数据集2上各模型指标对比Tab. 3 Indicator comparison of different models on dataset 2
由表3还可以看出,在面对序列数据时,循环网络能够展现出自己的优势,配合Attention机制后F1分数有所提高。
综上,将字典信息融合进文本表示是可行的,BERT对字注释编码后拼接字嵌入作为文本表示,特征提取采用BiGRU_Attention的网络结构能够在文本分类任务上取得较优的表现。
本文借助中文字典,提出了通过BERT预训练模型对字典中注释信息编码,并将符合语境的注释编码和字嵌入拼接作为文本表示,丰富了文本特征信息,对语义消歧有一定的帮助。实验结果表明,融合字注释模型在新闻文本分类和情感分类任务上相较传统网络LSTM和TextCNN的分类效果有显著提升,同时融合BERT字注释的BiGRU_Attention网络面对时序数据时,特征提取能力表现较优,相应的分类效果也更好。下一步将针对精确分词后优化文本表示,整合字典注释和词典注释,以及注释如何更好地融合模型发挥更强大的作用,进一步优化神经网络结构,使之在面对自然语言处理领域的任务时性能更优。
[1] 中国互联网信息中心.第47次《中国互联网发展状况统计报告》[R/OL].[2021-02-03].http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.(China Internet Network Information Center. The 47th China Statistical Report on Internet Development [R/OL]. [2021-02-03]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/202102/P020210203334633480104.pdf.)
[2] KIM Y. Convolutional neural networks for sentence classification [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL,2014: 1746-1751.
[3] HASHIDA S, TAMURA K, SAKAI T. Classifying tweets using convolutional neural networks with multi-channel distributed representation [J]. IAENG International Journal of Computer Science, 2019, 46(1): 68-75.
[4] LIU P F, QIU X P, HUANG X J. Recurrent neural network for text classification with multi-task learning [C]// Proceedings of the 2016 25th International Joint Conference on Artificial Intelligence. California: IJCAI Organization, 2016: 2873-2879.
[5] PHAN T van, NAKAGAWA M. Text/non-text classification in online handwritten documents with recurrent neural networks [C]// Proceedings of the 2014 14th International Conference on Frontiers in Handwriting Recognition. Piscataway: IEEE, 2014: 23-28.
[6] NOWAK J, TASPINAR A, SCHERER R. LSTM recurrent neural networks for short text and sentiment classification [C]// Proceedings of the 2017 International Conference on Artificial Intelligence and Soft Computing, LNCS 10246. Cham: Springer, 2017: 553-562.
[7] CHO K, VAN MERRIËNBOER B , GU̇LÇEHRE Ç, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation [C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2014: 1724-1734.
[8] HINTON G E. Learning distributed representations of concepts [M]// MORRIS R G M. Parallel Distributed Processing: Implications for Psychology and Neurobiology. Oxford: Clarendon Press, 1989: 46-61.
[9] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space [EB/OL]. [2021-02-21]. https://arxiv.org/pdf/1301.3781.pdf.
[10] LE Q, MIKOLOV T. Distributed representations of sentences and documents [C]// Proceedings of the 2014 31st International Conference on Machine Learning. New York: JMLR.org, 2014: 1188-1196.
[11] PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations [C]// Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). Stroudsburg: ACL, 2018:2227-2237.
[12] DEVLIN J, CHANG M W, LEE K, et al. BERT:pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg: ACL, 2019:4171-4186.
[13] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 2017 31st International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2017: 6000-6010.
[14] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks [C]// Proceedings of the 2014 27th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2014:3104-3112.
[15] BILAL M, ISRAR H, SHAHID M, et al. Sentiment classification of Roman-Urdu opinions using Naïve Bayesian, decision tree and KNN classification techniques [J]. Journal of King Saud University — Computer and Information Sciences, 2016, 28(3): 330-344.
[16] SUN A X, LIM E P, LIU Y. On strategies for imbalanced text classification using SVM: a comparative study [J]. Decision Support Systems, 2009, 48(1): 191-201.
[17] JIANG L X, LI C Q, WANG S S, et al. Deep feature weighting for naive Bayes and its application to text classification [J]. Engineering Applications of Artificial Intelligence, 2016, 52:26-39.
[18] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors [EB/OL]. [2021-02-21]. https://arxiv.org/pdf/1207. 0580.pdf.
Text classification model combining word annotations
YANG Xianfeng1*, ZHAO Jiahe1, LI Ziqiang2
(1.School of Computer Science,Southwest Petroleum University,Chengdu Sichuan610500,China;2.College of Movie and Media,Sichuan Normal University,Chengdu Sichuan610066,China)
The traditional text feature representation method cannot fully solve the polysemy problem of word. In order to solve the problem, a new text classification model combining word annotations was proposed. Firstly, by using the existing Chinese dictionary, the dictionary annotations of the text selected by the word context were obtained, and the Bidirectional Encoder Representations from Transformers (BERT) encoding was performed on them to generate the annotated sentence vectors. Then, the annotated sentence vectors were integrated with the word embedding vectors as the input layer to enrich the characteristic information of the input text. Finally, the Bidirectional Gated Recurrent Unit (BiGRU) was used to learn the characteristic information of the input text, and the attention mechanism was introduced to highlight the key feature vectors. Experimental results of text classification on public THUCNews dataset and Sina weibo sentiment classification dataset show that, the text classification models combining BERT word annotations have significantly improved performance compared to the text classification models without combining word annotations, the proposed BERT word annotation _BiGRU_Attention model has the highest precision and recall in all the experimental models for text classification, and has the F1-Score of reflecting the overall performance up to 98.16% and 96.52% respectively.
polysemy; word annotation; Bidirectional Encoder Representations from Transformers (BERT); Bidirectional Gated Recurrent Unit (BiGRU); attention mechanism; text classification
TP183;TP391.1
A
1001-9081(2022)05-1317-07
10.11772/j.issn.1001-9081.2021030489
2021⁃03⁃31;
2021⁃07⁃08;
2021⁃07⁃21。
国家自然科学基金资助项目(61802321);四川省科技厅重点研发计划项目(2020YFN0019)。
杨先凤(1974—),女,四川南部人,教授,硕士,主要研究方向:计算机图像处理、智慧教育; 赵家和(1997—),男,陕西渭南人,硕士研究生,主要研究方向:自然语言处理; 李自强(1970—),四川青神人,教授,博士,CCF会员,主要研究方向:机器学习、智慧教育。
This work is partially supported by National Natural Science Foundation of China (61802321), Key Research and Development Program of Science and Technology Department of Sichuan Province (2020YFN0019).
YANG Xianfeng, born in 1974, M. S., professor. Her research interests include computer image processing, wisdom education.
ZHAO Jiahe, born in 1997, M. S. candidate. His research interests include natural language processing.
LI Ziqiang, born in 1970, Ph. D., professor. His research interests include machine learning, wisdom education.