孙绪瑞 常远 舒言 刘川 戴心雨
摘要:本文提出了一种基于Bi-LSTM和CNN的混合模型,并引入自注意力机制,使模型更好地理解幽默文本的语义,完成幽默计算的两个任务。通过实验,本文模型将中文幽默计算两个任务的F1值分别提高了近2%和5%。
关键词:幽默计算;长短时记忆网络;自注意力机制;卷积神经网络;文本分类
中图分类号:TP391.1;TP181 文献标识码:A 文章编号:1007-9416(2020)06-0000-00
1研究背景
幽默可以分为不同的类型,如反转、谐音、谐义等,并且幽默往往还存在着强弱之分。虽然主观性较强,仍可以以一定的规则进行计算。幽默計算可以进一步揭示人类使用幽默的方式和机制,形成涵盖幽默机制的认知模型,实现更为智能的人机交互。同时,建立基于幽默的计算模型,有助于赋予计算机更深层次的人类认知。
2相关工作
本文对中文幽默的计算任务主要有两个,一是将包含有幽默的语料分成谐音,谐义,反转这三个基本类别,二是将一条幽默语料按照幽默强度进行二等级划分,即分为强幽默或者弱幽默。
对于传统的文本分类方法目前已经比较成熟,祁小军等人[1]将贝叶斯,KNN以及SVM算法这几种方法成功应用到海量新闻抓取有用信息上来,并对比分析了这几种方法的效果;丁世涛等人[2]以文本标题作为突破口,并使用word2vec进行分词词向量的训练,快速将文本对应到分类标签上。但是这几种方法都难以避免人工提取规则的开销,而且迁移性差也成为传统文本分类任务的瓶颈。
因此,利用神经网络来自动提取特征的方法逐渐过渡到文本分类任务上来。孙明敏[3]使用改进的TF-IDF算法提取文本特征,将其与FastText模型结合,一定程度上提高了分类准确率,但是其提取文本特征依旧局限于词语级别,而忽略了句子之间的依赖关系;孙嘉琪等人[4]先使用了RNN来解决文本语义的长期依赖问题,但是由于RNN所存在的梯度消失这一问题,又使用了LSTM的方法加以改进。朱文峰[5]为了提升算法时间效率并兼顾准确度,结合卷积模型中的注意力机制并行连接长短时记忆网络以及门控循环单元构建一个深度模型。
注意力机制模拟了人脑在观察事物时会重点关注某些特定区域以精准快速地获取需要的信息的机制。2017年Google团队的Vaswani等人[6]提出一种基于多头自注意力机制的编码器-解码器模型用于机器翻译任务,取得出色的效果。自注意力机制对于序列化的文本输入来说通过词语对周围词分配不同的权重来进行词的表示学习,能更好地捕获到词与词之间的关联,因此本文中引入了一层自注意力机制来捕获词与词之间的关系。
基于以上研究,我们发现,不同的神经网络对文本的不同粒度特征的提取各有优势。因此,本文构建了一种组合式的神经网络模型,模型主要由嵌入层、双向长短时记忆层、自注意力层、卷积神经网络层和输出层五个部分组成。
3本文模型
本文结合了长短时记忆网络捕获文本上下文全局特征的特性,自注意力机制调整词与词之间权重分配的特性和卷积神经网络捕获文本不同位置的局部相关性的特性,提出基于Bi-LSTM,Self-Attention和CNN的组合模型。
模型的嵌入层将输入的幽默文本序列映射为词向量序列,这些向量将与模型一起参与训练;双向长短时记忆层负责对词向量序列提取上下文的长距离依赖特征,使模型能够识别幽默文本序列存在的全局上下文模式,有助于模型辨别诸如前后反转造成的幽默效果,同时使模型具有识别文本中是否存在加强幽默效果的关键句的能力。自注意力层在双向长短时记忆层的基础上,通过文本序列中每个位置的词语对其他位置词语分配注意力权重,动态地调整词向量序列,使每个词语更加关注文本序列中有限的若干个词语,对模型捕获文本中存在的谐音、谐义和反义等关系有重要作用。卷积神经网络层中通过卷积操作进一步提取文本中的局部相关性特征,并通过平均池化来整合特征以及降低特征维度。输出层经过全连接层与卷积神经网络层相连,用于输出分类类别。
4实验
4.1实验数据
本文实验所使用的数据为CCL2018 Task4由大连理工大学信息检索实验室提供的的评测数据集。任务一数据集共有9123条幽默文本,任务二数据集共有10058条幽默文本,其中幽默文本的类别分布与现实情况基本一致。
对于输入模型的语料,需要进行一些预处理的工作:使用正则表达式去除语料中的标点符号、特殊符号,并使用python中的jieba库对文本进行分词处理,将每个幽默文本转化为词语序列的表示。
4.2实验结果及分析
本文实验中,选取CNN和Bi-LSTM模型作为对比模型,用以证明本文模型在幽默计算任务中的有效性。我们使用F1值、准确率和召回率作为评价指标。由于任务一为三分类任务,因此均使用宏平均的指标。
在任务一中,经过对比我们可以发现,CNN模型对于幽默识别任务来说能达到一个相对较高的准确率,而在召回率上表现较差。而Bi-LSTM模型在召回率上有所提升,但是准确率却相对于CNN有所下降。本文模型在达到了较高召回率的同时,也保持了相对高的准确率,并在宏平均F1值上相较于其他两个模型提高了近2%。在任务二中,经过对比我们可以发现Bi-LSTM在准确率和召回率上相较于CNN均有提升,本文模型在准确率上相较于Bi-LSTM略有提升,而在召回率上提升幅度较大,并在F1值上达到3%-5%的提升。
5结语
对于本文的幽默类型及幽默等级分类任务,我们通过使用Bi-LSTM与CNN组合,并加入自注意力机制调整词语对周围词的注意力权重的方法,更好地捕捉到了幽默文本中的语义信息以及长距离谐音、谐义、反转的特征信息,从而在原有的使用简单神经网络分类基础上准确率进一步提高。
目前将机器识别幽默运用到实际中还需要更深入的研究。在未来的学习与工作中,我们将尝试将外部知识库融入模型中,辅助模型进行幽默的识别和分类,从而能实现幽默机制真正意义上的现实应用。
参考文献
[1] 祁小军,兰海翔,卢涵宇,等.贝叶斯、KNN和SVM算法在新闻文本分类中的对比研究[J].电脑知识与技术,2019,15(25):220-222.
[2] 丁世涛,卢军,洪鸿辉,等.基于SVM的文本多选择分类系统的设计与实现[J].计算机与数字工程,2020,48(1):147-152.
[3] 孙明敏.基于TF-IDF的FastText文本分类算法研究[D].扬州:扬州大学,2019.
[4] 孙嘉琪,王晓晔,周晓雯.基于神经网络模型的文本分类研究综述[J].天津理工大学学报,2019,35(5):29-33.
[5] 朱文峰.基于支持向量机与神经网络的文本分类算法研究[D].南京:南京邮电大学,2019.
[6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems,2017:5998-6008.
收稿日期:2020-05-06
作者简介:孙绪瑞,男,江苏连云港人,本科,研究方向:人工智能与大数据处理。