融合标签关联的隐空间数据增强多标签文本分类方法

2023-12-18 08:58苗育华李格格线岩团
现代电子技术 2023年24期
关键词:空间数据基线标签

苗育华, 李格格, 线岩团

(1.昆明理工大学 信息工程与自动化学院, 云南 昆明 650500;2.昆明理工大学 云南省人工智能重点实验室, 云南 昆明 650500)

0 引 言

多标签文本分类是文本分类的子任务,是从标签集合中选中具体标签,为每个实例分配最相关的类标签子集,目前已广泛应用在信息检索[1]、情感计算[2]、情感分析[3]、邮件垃圾邮件检测[4]和多模态情感分析[5]等领域。多标签文本分类比单标签分类更复杂,每个实例都涉及到一个或多个类别,且类别数量不固定,部分类别之间往往是相互关联的,因此多标签文本分类是自然语言处理中一个重要而又具有挑战性的课题。

现如今在多标签文本分类的任务中,标签分类变得极为复杂,很多时候都出现了“长尾”分布,也就是标签不平衡。所谓的标签不平衡问题,就是指数据集头部标签有很多的实例,但是在尾标签中较少存在甚至只有几个实例,导致标签下的数据严重不平衡,即可以理解为标签“长尾”的问题。面对标签不平衡问题,在数据层面,主要的方法中根据数据本身进行一些替换,构造噪声数据;在集成算法层面,包括样本采样方法、代价敏感学习方法[6]等,主要是在模型训练阶段对训练实例的样本进行采样训练。

本文从标签联系和数据增强的角度出发,利用隐空间数据增强的思想,提出一种融合标签关联的隐空间数据增强的多标签文本分类方法。首先计算出各个标签相互出现的次数,通过对训练数据的挖掘,发现各类标签联系的先验知识。在隐空间中,通过标签之间的联系来匹配数据,并将标签的先验知识和文本特征相结合,创建出一条隐空间下的合成样本,进而解决类别下数据不平衡的问题。

本文将Mixup 数据增强的方法引入到多标签文本分类的任务中,在隐空间下通过原始数据和其他相关数据进行结合,有效地提高了多标签文本分类模型的泛化能力。同时,提出了融合标签关联的先验知识来进行数据策略增强,利用先验知识改进合成策略,在文本的表示空间下扩增了低频标签样本,提高了多标签文本分类的效果。实验结果表明,该方法能应用于一些强大的基础模型上,并在每种情况下性能都有一定的提升,在具有挑战性的AAPD 和RCV1-V2 两个数据集上的微平均F1值分别达到了74.86%和89.05%,相较于基线模型取得了较好的提升。

1 相关工作

讨论常见的多标签文本分类方法,主要包括机器学习算法和现在比较成熟的神经网络方法,还讨论了当前对多标签文本分类下标签不平衡问题的解决方法。

1.1 问题转换方法

多标签文本分类是单标签分类的分支,在二分类任务中的技术已经相当成熟。问题转换方法就是将复杂的问题转化为一个更简单的问题。在这种思想下,将原始多标签文本分类问题转换为多个二分类问题或者多类分类的问题。二元相关性算法(Binary Relevance,BR)[7]就是典型的问题转换方法。LP(Label Powerset)[8]为每一个可能的标签组合提供一个独特的类,将任务转换为标签组合的多类分类问题。基于分类器链(CC)的方法[9]是对BR 算法的一个改进,将任务转化为二元分类问题链。但是该方法的问题就是通过分类链的顺序和先前分类器的预测得到标签的预测准确度,对模型性能有着很大的影响,而且不能预测没有出现在当前标签组合内的标签。

1.2 算法自适应方法

基于算法自适应的方法扩展了传统的标签分类技术,采用合适的算法直接处理多个标签数据来解决多标签文本分类。ML-DT[10]算法借鉴了决策树根据信息增益筛选特征生成分类器的思想来解决多标签分类。Elisseeff 等人提出排名支持向量机(Ranking Support Vector Machine, Rank-SVM),使用一个新的度量,采用支持向量机训练来处理多标签问题[11]。ML-KNN(Multi-Label K-Nearest-Neighbor)[12]算法是在内部构建一个BR分类器,通过K 近邻的方法处理多标签数据,然后计算每个标签的先验概率和条件概率。

1.3 神经网络方法

深度学习方法发展快速,在自然语言处理领域内的任务中得到了广泛的应用。G.Kurata 提出使用卷积神经网络(CNN)进行分类[13],J.Nam 等人基于RNN 的Seq2Seq 来建模,借助RNN 依次产生的标签序列来捕获标签之间的相关性[14]。Chen 等人将CNN 和RNN 进行了融合[15],Yang 等人提出了SGM 方法,将注意力机制融入Seq2Seq 框架[16]。虽然有一些方法提出了改进,但是能否学到标签之间的相关性还有待商榷。 随着Transformer 和BERT 的提出,Sun 等人将BERT 应用到文本分类中,介绍了一些调参和改进的方法,进一步挖掘BERT 在文本分类中的应用[17]。深度学习算法大大提高了多标签文本的分类效果,但仍有很大的提升空间。

1.4 解决标签不平衡策略

数据增强方法在解决数据不平衡方面有着一定的改进。数据扩展是一种范围从基于规则到基于可学习的生成方法,而且上述所有方法基本上都保证了扩展数据[18]的有效性。文献[19]仅用于对文本分类的数据增强的综述。Zhang 等人将叙词表应用于数据增强,使用来自WordNet 的同义词典,根据它们的相似性对同义词进行分类[20]。Min 等人交换数据的主语和宾语,而且还将谓语动词转换成被动语态,以此来达到数据增强的目的[21]。V.Verma 等人提出一种在嵌入空间中生成伪样本(x~,y~)的Manifold Mixup 方法[22]。

2 模 型

面对多标签文本分类任务,已有方法没有很好地解决标签不平衡问题。本文从标签联系和数据增强的角度出发,利用隐空间数据增强的思想,提出了一种融合标签关联的隐空间数据增强的多标签文本分类方法。模型整体框架如图1 所示。

图1 模型整体框架

2.1 符号表示

2.2 模型架构

2.2.1 编码层

本文模型的编码层包括词嵌入层、编码层和结构化注意力层,词嵌入层使得词序列xi= (w1,w2,…,wk,…,wn)经过词嵌入了词序列的低维向量E= (e1,e2,…,ek,…,en),其中ek∈Rd表示第k个词元素,为验证数据增强方法的适用性,分别以Bi-LSTM 和Bert 作为模型的编码器,将E作为输入,传入编码器,通过训练得到数据集对应的隐状态H= (h1,h2,…,hk,…,hn),其中hk表示每条数据的隐状态。在编码后,利用结构化自注意力机制将隐状态H作为输入,得到:

式 中:注 意 力 权 重 矩 阵A∈Rr×n;Ws1∈Rda×(2u+d);Ws2∈Rr×d是注意力层的参数。da、r为模型的超参数,da为注意力层的隐状态维度,r为注意力机制的个数。

由文本词序列的隐状态表示H和注意力权重矩阵A得到句子的嵌入矩阵M=AH,最终通过M中的r个向量拼接得到文本的向量X= (X1,X2,…,Xi,…,XN)。

2.2.2 隐空间数据增强

为融入标签之间的关系,通过对数据集的分析,统计出各个标签相互出现的次数,其中标签对自身的影响为0,构建矩阵L=[L1,L2,…,Li,…,Lk],其维度为k×k,其中k为标签类别数量。为计算出标签之间的影响,对Li按行进行归一化操作,其长度为k,表示其他标签对当前第i个标签的影响得分,最终得到得分矩阵L~ =[L~1,L~2,…,L~i,…,L~k]。

本文借鉴Manifold Mixup 方法的思想,在文本的隐藏空间中合成伪样本。在此基础上,提出融合标签关联的隐空间下的数据增强策略。在合成样本时采用标签匹配策略,通过对每条训练数据的标签yi与数据集中的所有数据的标签集合Y= (Y1,Y2,…,Yi,…,YN)进行计算。其中yi的长度为标签类别长度k,Y的维度为N×k,通过式(2)得到与原始数据(xi,yi)匹配的数据(xj,yj)。

式中:D( )x,y为数据集的文本及标签特征表示的集合;F(·)表示随机取出与原始样本的标签相近的数据位置。对训练样本(xi,yi)和匹配样本(xj,yj)进行结合,得出伪样本,公式如下:

式中:λ∈[0,1]为样本的混合因子,由Beta(α,α)分布采样得到;α为超参数;f(yj,yi)表示匹配标签特征yj对于训练标签特征yi中每类标签不一样的位置;m表示将标签出现在yj但不在yi中的位置记为1,其他标签位置记为0;k为 标签个数;g(m,L~)表示在序列m为1 的位置上,通过得分矩阵L~,得出其他为1 的标签对当前标签影响的概率,最终通过伯努利分布得出m对应位置具体标签分配;G(·)表示将标签特征集合进行融合,得出伪数据的标签特征。

2.2.3 损失函数

在计算损失函数时,借鉴Circle Loss 思想[23],基于深度特征学习对相似度优化的观点,以类内相似度sp最大、类之间相似度sn最小为目标。再结合苏剑林提出的“softmax +交叉熵”的思想[24],得到:

式中:Ωneg和Ωpos分别代表样本的正负类别集合;si为非目标类中第i类的得分;sj为目标类中第j类的得分,对于额外的0 类得分s0,使其阈值为0。对于训练样本和伪样本,通过损失函数得到最终的混合损失:

式中:ℒ~1为训练数据的损失;ℒ~2为伪数据的损失;α∈[0,1]为损失结合的超参数。

3 实 验

介绍用于实验的两个数据集、评价指标和基线方法,并且展示在两个不同的编码器下的实验结果,验证所提方法的有效性。

3.1 数据集

采用以下两个数据集进行试验验证:

1) Arxiv Academic Paper Dataset(AAPD)[25]:是 由Yang 等人创建的,考虑到一篇论文可能涉及到一个或者多个学科,最终共收集了54 种学科共计55 840 篇论文的摘要。

2) Reuters Corpus Volume I(RCV1-V2)[26]:是 由Lewis 等人收集路透社新闻专栏报道得到的,共计103 个主题和804 414 篇报道。

3.2 评价指标

基于已有研究[25,27-28],采用汉明损失(HL)和微平均下的F1得分作为主要的评价指标,同时测试微平均下的准确率和召回率。

3.3 基线模型

本文方法将与以下几个基线模型进行比较:

1) LSTM:应用长短期记忆网络来考虑文本的顺序结构,以及减轻爆炸和消失梯度的问题。

2) Bert:使用以Transformer 为主要框架的双向编码表征模型。使用了大量的语料库进行训练,在许多自然语言处理的任务中实现了很高的性能。

3) BR、CC、LP、CNN-RNN、SGM 的结果在之前的论文中被引用,其他基线的结果由本文实现,所有算法都遵循相同的数据划分。

4 实验结果和分析

4.1 对比实验

本文提出的基于标签先验知识的数据增强方法,分别基于Bi-LSTM 和BERT 两种编码器对AAPD 和RCV1-V2 两个数据集进行处理。将本文方法与基线模型进行对比,结果如表1 和表2 所示。从表1 和表2 可以看出,在使用Mixup 方法后,对基线模型的性能都有一定的提升。

表1 数据集AAPD 在每个算法上的性能

表2 数据集RCV1-V2 在每个算法上的性能

由表1 可知,在处理AAPD 数据集时,对于基线方法中最好的BERT 方法,本文方法基于BERT 编码的微平均F1值提高了4.2%,汉明损失值0.021 4 较SGM 值0.025 1 提高14.7%。在表2 中,随着RCV1-V2 的数据集实例数量的增加,不同的基线方法都获得了一定的提升,可见数据规模对模型也有着一定的影响。其中基于BERT 编码方式的本文方法的微平均F1值最高,为0.890 5。对于两个数据集同时使用本文方法,发现基于BERT 编码方式优于基于LSTM 方式,在AAPD 数据集上提升了3.62%,在RCV1-V2 的数据集上提升了4.29%。表1中展示的两个数据集实验结果,证实了本文方法比已有处理大型数据集的方法都具有显著的优势。

4.2 消融实验

标签先验知识的数据增强策略是本文方法的重要组成部分,为验证对多标签文本分类模型的影响,本文进行两组消融实验。第一组实验在隐空间数据增强构建合成数据的过程中,移除标签先验知识对合成标签的影响,标记为(raw_mix);第二组实验在模型训练过程中移除了隐空间数据增强策略,标记为(att)。数据集AAPD 和RCV1-V2 加入Mixup 方法性能前后对比的结果如表3 所示。

表3 数据集AAPD 和RCV1-V2 加入Mixup方法前后性能对比结果

由表3 可知,在移除标签先验知识对合成标签的影响后,基于BERT 编码时,AAPD 和RCV1-V2 两个数据集融入隐空间数据增强方法对于性能有着一定的提升,且在数据集实例较少的AAPD 上,宏平均F1值从0.564 2到0.594 0,上升了约3 个百分点。

在移除隐空间数据增强策略后,基于LSTM 编码方式下在AAPD 数据集上微平均F1提升了2.5%,基于LSTM 编码方式在AAPD 数据集上宏平均F1值提升了2.98%。但随着数据规模的增大,在RCV1-V2 数据集上整体提升较小。

5 结 语

本文提出一种利用标签之间的先验知识在隐空间进行数据增强的方法,以解决多标签文本分类任务中类别不平衡的问题。相比于其他解决标签不平衡方法,本文方法摒弃了传统的数据增强的思想,无需额外的人工标注和对数据集进行扩建,也不用降采样或过采样,只在模型的隐空间中的特征层进行拼接数据的创建,以及通过对长尾标签下的数据进行一定的构建。实验结果表明,在具有挑战性的多标签数据集上隐空间Mixup 优于有竞争力的基线,也验证了本文提出方法的合理性。在未来的任务中,Mixup 思想可以进一步应用于其他自然语言处理的分类任务。

猜你喜欢
空间数据基线标签
适用于MAUV的变基线定位系统
航天技术与甚长基线阵的结合探索
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
一种改进的干涉仪测向基线设计方法
标签化伤害了谁
元数据驱动的多中心空间数据同步方法研究
基于多进制查询树的多标签识别方法
技术状态管理——对基线更改的控制
基于文件系统的分布式海量空间数据高效存储与组织研究