BERT-CharCNN联合模型微博作者身份验证研究

2020-04-15 02:16王靖亚

江苏警官学院学报 2020年6期

张辉王靖亚仝鑫

·侦查学研究·

张辉王靖亚仝鑫

针对现有微博作者身份验证方法存在的特征工程复杂和模型表征能力不足等问题，可采用一种能够捕捉文本综合特征的BERT-CharCNN联合模型。一方面，利用CharCNN提取微博文本字、词级的特征；另一方面，利用BERT提取微博文本句子、段落级的特征。对两个特征进行拼接得到最后的特征向量，使得神经网络能够较好地进行微博作者身份验证。实验结果表明，该联合模型对微博作者身份验证的准确率优于单分支的BERT和CharCNN模型。

微博文本；作者身份验证; CharCNN; BERT

一、引言

警方如果已经掌握了重点人员范围及其在网上发表过的言语库，便可以通过分析每个人写作的风格特点将匿名文本映射到某个重点人员，这个过程称为作者身份验证。[1]早期作者身份验证以人工特征建模为基础，Yule通过分析英文散文的作者在一篇文章中使用不同长度句子的频率进行作者身份的验证[3]；吕英杰通过抽取词汇、句法、结构、内容四个方面的特征，采用朴素贝叶斯算法、决策树算法C4.5和支撑向量机SVM三种文本分类算法对作者进行验证。[2]神经网络简化了特征建模的过程，郭旭、祁瑞华提出了一种以RNN神经网络为基础的作者身份验证模型，实现了自动的文本特征提取。[4]由于单一的神经网络无法有效捕捉微博文本多层面的特征，本文提出BERT-CharCNN联合模型，使得神经网络既能提取微博字、词级的特征，又能提取句子、段落级的特征并进行融合，与现有模型相比，在微博作者身份验证任务上有更好的表现。

二、BERT-CharCNN作者身份验证模型

BERT-CharCNN模型的整体结构，见图1。该模型由BERT和CharCNN两大部分组成，其中BERT用于提取微博文本的句子、段落级特征，CharCNN用于提取微博文本的字、词级特征。用pytorch的融合函数cat()对两种网络模型得到的特征向量进行拼接处理，得到的融合向量输入分类器进行文本到作者的对应。

图1 BERT-CharCNN联合模型

（一）BERT模型

BERT是由Jacob Devlin等人于2018年提出的一种语言模型。[5]它使用两个无监督预测任务对模型进行训练，其中MASK LM任务捕捉词语级别的特征，Next Sentence Prediction任务捕捉比词更高级别的句子级别的特征，二者结合使模型能够很好地捕捉到微博文本的综合特征。BERT模型见图2。

图2 BERT模型

1.Masked LM。该任务是为了训练模型深度双向表示的能力。BERT在训练模型时随机遮蔽一部分词，然后通过上下文预测该词。随机屏蔽词的方式为80%的时间用标记[MASK]替换，10%的时间用随机单词替换，10%的时间保持原词不变。模型在进行预测时不知道它被要求预测哪些单词，也不知道哪些单词已经被随机单词替换，因此它被迫学习每个词的分布式上下文表示，这有利于捕捉文本词之间的关系和特征。

2.Next Sentence Prediction。该任务是为了训练模型判断句子B是否为句子A的下文，理解句间关系。在判断时，如果B为A的下文则输出“IsNext”，不是的话则输出“NotNext”，这个关系保存在特殊标记[CLS]中。当选择句子A和B作为训练样本时，B有50%的可能是A的下一个句子，50%的可能为来自语料库的随机句子，该过程增强了模型对句间关系的理解，提高了模型捕捉微博文本深层语法特征的能力。

（二）CharCNN模型

字符级卷积神经网络（CharCNN）是由Yoon Kim等人在2016年提出的一种字符级的卷积神经网络。[6]网络文本多为口语化表达，传统的网络模型无法提取文本比词级更小的字级特征，CharCNN网络模型可以有效提取文本的字级特征，从而较好地对作者的书写习惯进行特征提取。CharCNN文本分类模型见图3。

图3 CharCNN模型

该模型共有如下6层。

1.输入层。输入层将文本转换为向量矩阵。在自然语言处理任务的卷积神经网络中，需将文本转换为向量矩阵后输入到卷积层进行特征提取，基于字符级输入的CharCNN将文本转换为字符向量矩阵。

2.卷积层。卷积层用于文本特征提取。在该层设定不同的卷积核尺寸调整特征提取的粒度，通过移动卷积核对输入层获得的字符向量矩阵进行扫描，提取文本的局部特征信息。

3.池化层。在卷积层提取特征后，池化层对特征再次进行提取。最大池化既可以保留文本最显著的特征，同时减少参数量，防止过拟合，提高模型泛化能力。

4.高速网络层。为了缓解当深度网络层数较多时梯度爆炸和梯度消失的问题，CharCNN加入了高速网络层。普通前馈神经网络对输入进行非线性化后直接传递给下一层，而高速网络的每一层都有两个通道，一个是通过transform gate对输入进行非线性处理，一个是通过carry gate直接传递输入并不处理。

5.LSTM-RNN层。与传统RNN相比，引入记忆门控（Input gate）、忘记门控（Forget gate）和输出门控（Output gate）。由拼接向量乘以权重矩阵之后，再通过一个激活函数转换成0到1之间的数值，来作为一种门控状态。通过门控结构有效解决了梯度消失的问题。

6.分类层。将经过LSTM-RNN层处理得到的向量，连接一个全连接层后输入到Softmax进行分类。在联合模型中CharCNN只需要获得特征向量，无需进行分类，在设计模型时去掉该层。

三、实验及分析

（一）数据集

实验所使用的数据集为爬虫爬取的新浪微博10位博主的公开博文，每位1000篇。为使模型能够更好地体现验证效果，设置训练集为作者前四年的微博，验证集和测试集设置为近一年的微博。设置训练集、验证集和测试集的比例为7﹕2﹕1，将每条微博按照博主id为其加上相应的标签（0-9），具体情况见表1。为了能更好地使文本反映作者的写作特征，实验对数据集中的标点符号、停用词等均进行了保留。

表1 数据集

CharCNN使用的预训练字向量为北京师范大学和人民大学的研究者提供的“中文词向量语料库”中基于NLPIR中文微博数据集训练的字向量。[7]

（二）参数设置

实验模型的参数如下：CharCNN的dropout为0.7，学习率为1e-3，卷积核的尺寸为(3,4,5)，卷积核的数量为100。BERT的学习率为5e-5，batch size为64。CharCNN得到的特征向量维度为batch_size*（256*3），BERT得到的特征向量维度为batch_size*768，经过Pytorch中cat()函数向量拼接后得到的特征向量维度为batch_size*（768+256*3）。

（三）实验及结果

为了体现BERT-CharCNN联合模型相较单分支的模型在微博作者身份验证任务中的优越性，在相同的数据集上设置了对比实验，此外还引用了徐晓霖提出的CNN+LSTM模型[8]进行比较。实验步骤如下。

1.文本预处理。将微博数据按照7﹕2﹕1的比例划分训练集、验证集和测试集。

2.将预处理好的文本输入到CharCNN、CNN+LSTM、BERT以及BERT-CharCNN四种模型，对作者身份进行验证，并计算准确率、召回率和F1值。

实验结果如表2所示。由表可知，四种方法的准确率都达到了75%以上， CharCNN以及BERT的F1值分别为78.97%和83.10%，而BERT-CharCNN模型的三项实验评测指标均高于两个单分支模型，证明BERT-CharCNN联合模型综合了两种模型的优点，在作者身份验证任务上的表现更好。另一组对照试验CNN+LSTM模型的F1值为82.78%，相较其在实验②中的准确率有所下降，这是因为作者身份验证任务语料时间跨度较大，单一模型无法有效地进行特征捕捉，BERT-CharCNN模型较其准确率约有5%的提升，体现了BERT-CharCNN联合模型处理作者身份验证任务的效果更好。

表2 实验结果

为了进一步体现BERT-CharCNN联合模型在微博作者身份验证任务上的优越性，本文对4种不同模型的训练过程进行了研究，结果如图4所示。

图4 验证集准确率变化曲线

从图4中可以看出，BERT-CharCNN联合模型在epoches=25时达到了较高的准确率。在整个训练过程中， BERT-CharCNN联合模型收敛速度快，训练过程稳定，并在整个训练过程中始终保持准确率领先，证明了BERT-CharCNN模型特征抽取的能力和效果优于其他模型。

四、结束语

在进行作者身份验证的时候，提取文本特征的质量对最后的验证结果有着很大的影响。本文提出的BERT-CharCNN联合模型在前人研究的基础上，将微博文本字、词级特征提取效果较好的CharCNN模型与句子、段落级特征提取效果较好的BERT模型进行联合，取得了优于传统方法的结果。下一步的研究方向为针对小样本的作者身份验证问题。

[1]Halvani O, Winter C, Graner L.//Proceedings of the 12th international conference on availability, reliability and security. 2017，pp.1-10.

[2]Yule G U.. Biometrika, 1939, Vol.30, pp.363-390.

[3]吕英杰、范静、刘景方：《基于文体学的中文UGC作者身份识别研究》，《现代图书情报技术》2013年第9期。

[4]祁瑞华、郭旭、刘彩虹：《中文微博作者身份识别研究》，《情报学报》2017年第1期。

[5]Devlin J, Chang M W, Lee K, et al. Bert:g. arXiv preprint arXiv:1810.04805, 2018.

[6]Kim Y, Jernite Y, Sontag D, et al.arXiv preprint arXiv:1508.06615, 2015.

[7]Li S, Zhao Z, Hu R, et al.. arXiv preprint arXiv:1805.06504, 2018.

[8]徐晓霖、蔡满春、芦天亮：《基于深度学习的中文微博作者身份识别研究》，《计算机应用研究》2020年第1期。

D918.2

1672-1020(2020)06-0067-05

2020-10-15

张辉（1996-），男，山东枣庄人，汉族，中国人民公安大学2018级警务信息工程与网络安全学院硕士研究生；王靖亚（1966-），女，陕西西安人，汉族，中国人民公安大学警务信息工程与网络安全学院教授；仝鑫（1995-），男，河南郑州人，汉族，中国人民公安大学2019级警务信息工程与网络安全学院硕士研究生，北京，102600。

[责任编辑：金晞]