王婉 张向先 卢恒 张莉曼
关键词:网络新闻;文本分类;注意力机制;双向长短期记忆神经网络模型
近年来,随着移动互联技术的迅猛发展与智能设备的普及,网民数量持续攀升。据CNNIC统计[1],截至2020年12月,我国网民规模已高达9.89亿。网络新闻与社交平台、搜索引擎等应用形成有效联动,加快构筑了网络新闻内容生态体系。用户在检索新闻的过程中生成了海量非结构化的网络新闻文本数据,构成了热搜平台的信息生态系统。这些文本数据是网络用户对自己所感兴趣的新闻内容点击生成,它聚焦了网络用户所关注的新闻热点,形成了具有新媒体时代特色的网络新闻。这种特定情境下网络新闻的变迁又深刻影响着社会舆论的演化与发展。热搜平台已然成为当前网络用户获取新闻资讯的主流平台,但面对大规模新闻文本数据量的激增,如何精准、高效地实现网络新闻文本分类,准确了解用户信息需求,成为网络新闻平台实现精准、智能的信息服务所亟待解决的问题。
面对网络空间大规模非结构文本的涌现,针对不同领域的文本分类问题已然成为学者们较为关注的研究课题。目前,已有学者进行了积极的尝试:如ShotorbaniP等[2]基于LDA在线制造文本进行主题建模与文本分类,以提高供应商发现和知识获取工具的智能化。LDA虽然能过滤掉一些常见却无关紧要的词语,但网络新闻文本往往较为简短,不利于训练LDA[3]。部分学者针对短文本的分类又开展了相关研究:如KatameshN等[4]提出了基于词袋模型和TF-IDF的多模态文本分类方法,但词袋模型与TF-IDF是基于词频的文本表示,缺乏相似词之间的语义化表达,比如“我喜欢长春”“我不喜欢长春”其实这两个文本并不相似,但词袋模型会判别为高度相似。作为一种高效的文本特征表达方法,深度学习方法能够更好地抽取出深层语义特征对文本进行建模。因此,本文尝试从网络新闻文本的语义特征出发,探索深度学习方法在网络新闻文本分类的应用效果。拟解决的研究问题有以下3点:①如何生成网络新闻文本的向量表达以实现语义建模;②如何构建网络新闻的文本分类模型;③如何验证网络新闻文本分类模型的优越性。本文的理论贡献在于:构建了网络新闻文本分类模型,提出了一种面向新闻文本分类的指导框架,丰富了知识组织的理论体系。本文的实践价值在于:对网络新闻文本分类的应用实践提供技术支撑,帮助平台运营者科学地制定智能化知识组织与信息服务决策,以期为网络用户提供更加适配的新闻平台智能信息服务。
1相关研究评述及问题提出
1.1网络新闻文本
移动互联背景下,网络用户对于新闻内容的获取方式由传统的单一平台获取转变为跨平台内容聚合获取。基于用户点击频次高低的新闻,经聚合后生成了网络新闻平台的热搜榜单,构成了热搜平台核心的信息服务模式。网络新闻文本[5]以网络为载体,对社会所发生的事实的报道形式,形成了某一时间段内,引发网络用户、媒体等高度关注的社会焦点。
网络新闻是舆情事件的高度凝练,也是还原舆情事件事实的真实报道,对其语义内涵的挖掘与分类能够呈现网络用户对于网络新闻背后舆情事件的关注倾向性,明晰网络用户的信息需求类别,提升新闻平台运营决策的科学性与精准性。网络新闻文本在语义上呈现概括性、层级性、序列性与包容性4个特点[6]。新闻标题更是对网络新闻内容的高度凝练,其文本具有主题鲜明、内涵厚重的特征,反映了网络新闻文本最核心的内容。学者们针对短文本的特征识别已做了积极的尝试:如毕凌燕等[7]提出了适用于微博的基于概率模型的主題识别模型。微博文本虽具备短文本特征,但多为网络语言表达,噪音词涵盖较多,其方法并不适用于网络新闻文本的表达范式。此外,新闻标题相对于一般的短文本更为简短,其特征更为稀疏,语义识别更具挑战性。因此,本文针对网络新闻文本特征,探索更适配新闻平台知识组织与服务的文本分类思路与方法。
1.2基于深度学习的文本分类相关研究
文本分类是自然语言处理的重要研究内容,在主题挖掘、知识发现等领域有着重要作用。传统的文本特征提取如词频———逆文档频率向量、Onehot词向量等均得到了广泛应用。如贺波等[8]运用TF-IDF算法计算出文本特征,提出基于融合特征的商品文本分类方法。然而,这种特征提取方法通常仅能提取到浅层信息特征,未能有效捕捉深层语义信息,从而影响其在文本分类任务中的表现。近年来,深度学习借助其强大的特征选择与抽取能力[9],以及能够自动捕获更高层次的语义信息,被情报界学者们广泛关注,并积极开展了面向文本分类的相关研究。针对文本主题分类方面,胡吉明等[10]融合了LDA主题模型和注意力机制,构建了政策文本表示和分类的一体化框架。余传明等[11]融合LDA2Vec方法构建主题表示学习模型W-LDA2Vec将主题信息嵌入到词表示、文档表示中,有效提升了在热点事件文本分类和主题相关度等任务上的效果;面向情感分类问题,徐绪堪等[12]构建了一种基于BiLSTM-CNN模型的微信推文情感分类模型。韩普等[13]结合注意力机制提出了基于CNN与BiLSTM模型的突发公共卫生事件微博情感分类方法。可见,结合注意力机制的BiLSTM模型在捕获短文本的语义特征具有良好的效果,为本文提供了模型参考依据。此外,学者们对文本分类方法的改进也做了相关研究:如RuanSF等[14]提出了基于改进距离相关系数的加权朴素贝叶斯文本分类算法,以度量属性对类别的重要性,为不同的术语分配不同的权重;为了提升特征选择效果,唐晓波等[15]提出,基于关键词词向量特征扩展的健康问句分类模型。MehtaD等[16]认为,BERT模型可以有效地运用其深度语境化特性实现六标签分类的改进,从而实现虚假新闻的分类。ZhouYJ等[17]提出了融合循环神经网络RNN和卷积神经网络CNN来提取文本的语义特征,从中捕获与类相关的注意力表示以提高中文短文本的分类性能。SunNF等[18]将卷积神经网络、循环神经网络和注意力机制的神经网络3种模型合并为一个模型,获得局部关联特征和上下文特征,并验证了其模型的有效性与优越性。可见,RNN、CNN、BERT等深度学习模型在文本特征扩展与分类任务中已表现出一定的优越性,但卷积神经网络等模型因时间开销巨大,无法实现大规模网络新闻文本数据的高效分类。鉴于此,本文将探索基于深度学习的理论与方法的热搜网络新闻的文本分类方法,以提升网络新闻标题的语义特征抽取与文本分类效果,为新闻平台运营者提供更精准、高效的智能化知识组织模式。
1.3基于深度学习的网络新闻文本分类问题的提出
海量非结构化的网络新闻文本数据,聚焦了生活中人们普遍关注的重要新闻,在一定程度上反映了网络用户对某个新闻话题的关注程度。对于网络新闻的文本分类能够为网络用户及时获取以主题形式呈现的社会热点信息,洞察网民对网络新闻主题类别需求,为新闻平台运营者提供更高效、智能的知识组织方式,以满足网络用户信息需求与精准服务的适配性。
针对网络新闻文本分类需考虑以下几个问题:其一,网络新闻标题文本属于短文本,特征稀疏,直接应用传统的文本特征表达方法效果不佳[19];其二,采用何种方法能够提升数据规模大、高维复杂的网络新闻文本分类的精准性和高效性。Ngram2vec模型集合了Word2vec模型与FastText模型的优势,既可有效改善网络新闻文本向量稀疏问题,又可以提升文本特征向量表达的效率[20]。注意力机制[21]能够为网络新闻标题文本的内容特征分配不同的权重,提升标题文本分类的准确性。因此,本文通过融入FastText模型和注意力机制,选取并实现了Ngram2vec模型和BiLSTM_Atte模型作为网络新闻文本分类技术框架的主要方法。
综上,基于深度学习的网络新闻文本分类完全契合高效追踪社会关注的热点新闻主题,探究网络用户对于网络新闻主题选择的倾向性,明晰用户信息需求,帮助平台运营者科学地制定精准服务策略。因此,本文立足于网络新闻文本的语义特征,借助深度学习理论与方法,探索网络新闻标题文本的深层语义表达,并结合注意力机制输出到具有显著相似性的主题标签上,实现探究深度学习方法在网络新闻文本分类任务的应用效果。
2融合FastText模型和注意力机制的网络新闻文本分类
本文针对网络新闻标题文本的超短文本特征,探索融合FastText模型与注意力机制的双向长短期记忆神经网络模型(BiLSTM_Atte)[22]的网络新闻文本分类模型在分类任务的应用效果。
2.1面向网络新闻文本分类的深度学习模型
2.1.1Ngram2vec模型
文本向量化是文本分类的基础。网络新闻文本涉及领域广泛且包含的词语繁杂分散,传统的向量空间模型高维且稀疏,并不适用于网络新闻文本的分类任务。Ngram2vec模型融合了Word2vec模型和FastText模型,其支持抽象上下文特征和模型。Word2vec实现文本语义表征,将标题文本编码以表达其语义关系,并借用FastText中的多层Softmax函数提升训练速度。因此,本文采用二者结合的词向量模型Ngram2vec,既实现了准确表征网络新闻文本的语义内涵,又可以大幅度提升数据处理效率,使其向量化表示精准、高效。
1)Word2vec模型
AlexanderG等[23]创建了Word2vec模型预训练的词嵌入,用以学习词嵌入或文本的向量化表示。一般常用的两个模型为Skip-gram模型和CBOW模型。在训练过程中,两种架构又各有侧重:CBOW模型在词向量的训练速度方面表现出色;Skipgram模型虽然在训练速度上较慢,但是其训练低频词的效果较好[24]。由于网络新闻文本的特殊性,其文本往往多包含专业词与罕见词。因此,本文选取Skip-gram模型训练词向量。
2)FastText模型
2016年,Facebook首次提出FastText文本分类模型,其核心思想是将整篇文档的词及N元模型(n-gram)向量叠加平均得到文档向量,然后使用文档向量做多分类[25]。FastText结构可简化为一个隐含层。它将平均单词表示作为文本表示,提供给一个线性分类器。该结构类似于Word2vec中的CBOW[26]模型,区别于CBOW输出的是所预测的中间詞,而FastText输出的是经过隐藏层处理再Softmax函数计算每个类别的概率分布的文本类别。最后使用随机梯度下降方法更新损失函数,并更新权重参数,以达到模型迭代的目的,使其预测速度大幅度提升。至此,本文在网络新闻文本初步向量化表示(Word2vec)的基础上,利用FastText模型,提高了网络新闻文本的向量化表示效率,为后续更加高效地实现网络新闻文本分类奠定了基础。
2.1.2BiLSTM_Atte模型
网络新闻文本分类是对网络用户所关注的不同的新闻主题类别的结果呈现,其本质特征是网络新闻标题的序列超短文本分类。循环神经网络具有图灵完备性、记忆性和参数共享性[27],在学习序列特性方面具有一定的优势。因此,循环神经网络(RNN)[28]是处理预序列分类有关问题的最佳选择。但RNN模型在训练过程中计算的梯度会因累积乘法效应而发生消失或者爆炸,导致模型训练速度缓慢。长短期记忆网络(LongShortTermMemory,LSTM)[29]恰好能解决这个问题,通过引入输入门和遗忘门更好地控制梯度,能够更好地保留网络新闻文本中的长距离词语依赖关系。通过双向长短期记忆网络模型(BiLSTM)[22]则可以较好地捕获网络新闻文本的双向语义依赖。
为了提升文本分类的准确率,本文在LSTM模型的基础上融入了注意力模型(AttentionModel)思想,将注意力机制(Attention)整合到双向长短期记忆网络BiLSTM模型,注意力模型在输出时,在“注意力区域”表征下一个输出会重点关注输入序列部分,根据关注度不同的权重来产生下一个输出。由于注意力机制能够增强超特征学习过程中底层单元的权重表示,并能充分利用网络新闻文本中标题的局部特征。因此,融入注意力机制的BiL⁃STM_Atte模型能够提高对网络新闻标题中更为相关部分的关注程度,从而提升分类的准确度。
2.2基于Ngram2vec和BiLSTM_Atte模型的网络新闻文本分类过程
网络新闻文本分类任务主要包括两大部分,如图1所示:一是将爬取网络新闻文本通过词嵌入方法进行语义建模。对采集的网络新闻文本语料进行数据清洗、去停用词、分词等预处理。利用融合Word2vec模型与FastText模型的词向量模型Ngram2vec训练词向量提取实体特征。为了获取完整的语义表达,生成词向量后进行加权平均构造句向量表达,实现融合完整句特征的语义建模。二是构建结合注意力机制的双向长短期记忆神经网络模型(BiLSTM_Atte)实现关系抽取。利用BiLSTM模型整合网络新闻标题文本的上下文特征,保证网络新闻文本的语义完整性;同时,针对网络新闻标题文本语义分布不均衡的问题,引入注意力机制增加重要内容的权重,以提升该模型的分类准确率。将向量化文本表示导入结合注意力机制的双向长短期记忆网络模型,利用多层注意力机制作用于BiL⁃STM_Atte模型的输出层获得更鲁棒的文本局部特征,将增强后的特征向量导入分类器实现关系抽取。本实验将数据集分为实验组与测试组进行实验对比,测试引入注意力机制对网络舆情文本分类的效果影响,以解决传统短文本语义特征学习能力不足的问题,提升信息组织效率。
本文借鉴了胡吉明等[9]提出的政策文本分类模型的结构,融合了FastText、Bi_LSTM、Attention模型的显著性优势,构建了网络新闻文本分类的深度学习模型,如图2所示。通过词嵌入模型Ngram2vec提取网络新闻文本的局部特征,深度挖掘网络新闻文本的语义信息。输出的词向量进行加权平均,生成标题句向量表达作为BiLSTM的输入,引入At⁃tention机制加入注意力层为网络新闻文本的特征配置差异化权重,最终通过Softmax层输出网络新闻文本所属类别的概率值。
3实验过程与对比分析
针对上述提出的模型,本文以搜狗全网新闻数据平台中的网络新闻文本为实证分析对象,实验验证其有效性和优越性。
3.1数据预处理
本文综合运用后裔采集器等第三方数据监控平台批量采集。数据采集的新闻文本数据是2020年12月1日—30日国内外全网新闻数据26242条,每条数据包含一篇不限定主题的新闻标题内容。首先,进行数据清晰。过滤掉原始数据中的媒体、时间、记者、编辑、标签5个字段,仅保留新闻标题,再清洗广告新闻标题、重复新闻标题以及包含特殊符号的无效新闻标题,保留可用作实验样本25498条,且选取了文本长度在20~30个字符之间的标题文本作为样本,为了便于模型处理,统一标题长度为30,对于超过30的标题进行截断,对于不足30的标题进行填充;其次,进行分词处理。借助Python中的Jieba自然语言处理分词库[27]实现新闻标题分词;最后,进行过滤停用词。为了提高数据分析效率,对样本中不具有辨识性的,且会带来大量噪声的停用词进行处理,过滤掉无实际含义或对分析结果无实际影响的词。本文采用哈工大停用词表,过滤后的词条为24992条,可作为实验样本。
3.2数据预训练
预训练词向量来源于清华大学的中文文本分类数据集THUCNews。THUCNews是根据新浪新闻RSS订阅频道2005—2011年的历史数据筛选过滤生成的新闻文档。新浪中文预训练词向量包是通过对大量新浪新闻文章用融合Word2vec模型和Fast⁃Text模型的Ngram2vec模型训练得到。由于本文的数据来自搜狗全网新闻平台,与新浪平台的新闻文本在各方面都有较大的相似度。因此,选用新浪新闻中文预训练词向量包对数据进行预训练会比较适合。
从清华大学的中文文本分类数据集THUCNews中抽取20万条新闻标题内容,共10个类别,每类2万条。類别分别为:金融、房地产、股票、教育、科学、社会、政治、体育、游戏、娱乐。数据以词为单位输入模型。预处理时合并新闻标题作为基本语料库,然后对数据进行处理。
3.3模型应用与对比分析
本研究使用Pytorch深度学习框架进行网络新闻文本的分类模型的程序实现,将样本数据按2∶1的比例划分为训练集与测试集。为了保证实验的严谨性,本实验的对比实验的参数设置均为:预训练字向量维度128维,神经元数量200,每批数据量的大小200,最大训练时期数100,Epoch值为6。将实验数据分别进行词向量嵌入,然后传给双向长短期记忆网络的输入层,编码之后经过注意力机制作用于输出层,进行目标的预测。关系抽取实则在嵌入时,加入了实体的特征,与句子特征融合,处理后用结合注意力机制的双向长短期记忆神经网络模型进行文本分类,根据最终输出类别是否匹配实际类别判定网络新闻文本分类的正确性。
实验评判标准采用目前广泛使用的精确率(Precision)、召回率(Recall)和F1值(F1-measure)3种评价指标[19],这3种指标计算公式如下:
其中,式(1)是精确率的计算,TP+FP是指实际分类的文本总数,TP是指正确分类的文本总数。式(2)是召回率的计算,TP+FN是指应有的分类总数。式(3)F1是同时考虑精确率和召回率的综合指标,取二者同时达到表现最优的取值。
本文实验的分类结果如表1所示。对结果分析可以看到,模型对“体育”“教育”这两个类别的分类效果最好,其F1值均超过了94%。对“金融”“房地产”“娱乐”“社会”“游戏”的分类效果次之,其F1均值在91%左右。对“股票”“科学”“政治”分类效果最差,其F1值均值近87%。总体来看,融合FastText模型和注意力机制的网络新闻文本分类模型分类效果较好,说明本文所提出的分类框架是有效的,能够较为准确地实现网络新闻文本分类。
本文构建了RNN、BiLSTM和BiLSTM_Atte模型进行了对比试验。同时,为了验证热搜新闻文本分类模型所提出的文本表示方法的有效性,使用BiLSTM_Atte模型进行两次实验,其中RNN、BiL⁃STM和BiLSTM_Atte-1所使用的数据未融入Fast⁃Text模型,BiLSTM_Atte-2融入FastText模型,模型对比实验结果如表2所示。从表2数据可以看到,加入了注意力机制的F1值比单一模型的F1值要高,而且融入FastText模型能够进一步提升模型对于网络新闻文本的分类准确率,验证了本文所提出的网络新闻文本分类模型的有效性。BiLSTM_Atte-2模型的F1值为92.03%,其精确率和召回率也高于其他3个模型,进一步验证了融合Fast⁃Text模型与BiLSTM_Atte模型的网络新闻文本分类模型性能的优越性。
由表3可知,本文构建的热搜新闻文本分类模型收敛速度快且准确率均高于其他3种模型。在Epoch为1时,本文提出的模型分类准确率比BiL⁃STM_Atte-1模型提升1.18%,比RNN模型提升4.13%,比BiLSTM模型提升3.71%。这是因为当Epoch值较小时,RNN、BiLSTM、BiLSTM_Atte-1神经网络模型无法较好地学习到新闻文本的深层次语义特征,而本文所提出的融合了FastText模型与BiLSTM_Atte模型的文本分类模型则可以较好地捕捉其语义特征并迅速调整参数,以达到较好的收敛性。RNN模型与BiLSTM_Atte-1模型在Epoch3后均调整到相对稳定的值,且具有较好的收敛效果。对比不同模型在各Epoch下的准确率可以发现,本文所构建的新闻文本分类模型在Epoch1就获得比较理想的效果。实验结果表明,本文所提出的融合FastText模型与BiLSTM_Atte模型的网络新闻文本分类模型计算效率更高,主要得益于本文所提的基于Word2vec模型和FastText模型的网络新闻文本表示方法,实现了模型的快速收敛。综上,无论从模型的分类准确率还是从计算效率来看,本文所提出的模型均具有良好的优越性。
通过混淆矩阵同样可以建构模型精度。如图3的实验结果显示,几乎全部新闻热点分类数据都集中在对角线上,说明加入了注意力机制的神经网络模型精度符合预期。从混淆矩阵中看到矩阵(5,5)的值为848,呈现为对角线最弱分类,对应的为科技类网络新闻,说明科技类网络新闻涉及领域众多,专业术语繁杂,不同文本专业词语差异较大,句子语义特征学习难度也较大,还需要对科技类训练库进一步完善以提升模型对科技类新闻文本的分类学习能力。
3.4结论分析
实验结果表明,利用本文提出的新闻文本分类模型具有一定的优越性,实用价值高,为平台运营者智能化知识组织提供有力指导,具体来说具有以下优势:
1)从表2的对比实验数据可以看出,融合了FastText与注意力机制的模型在精确率上提升至92.03%,达到了理想的预测精度。由此说明,本文提出的融合FastText模型与注意力机制的双向长短期记忆神经网络模型构建的网络新闻文本分类方法具有一定的优越性。原因在于,结合注意力机制的长短期记忆神經网络模型能够解决输入矩阵存在特征稀疏、维度过高以及深层语义特征提取不充分等问题,有效避免了RNN模型梯度爆炸和梯度消失。通过反复迭代训练,发挥了结合注意力机制的长短期记忆神经网络模型强大的非线性映射能力,从而提升分类的精确率。
2)从表3的各模型对比实验数据可知,本文提出的融合FastText模型和注意力机制的文本分类方法实现了模型的快速收敛,显著提升了网络新闻文本分类的速度,与传统的文本分类方法相比效率更高,实用性更强,为网络新闻运营平台提升知识组织效率提供重要参考依据。
4结语
本文针对网络新闻文本特征提出了融合Fast⁃Text模型和注意力机制,基于Ngram2vec模型和BiLSTM_Atte模型的网络新闻文本分类技术框架以实现网络新闻文本分类。具体包括构建了基于Word2vec模型与FastText模型相结合的网络新闻文本表示模型Ngram2vec模型与结合注意力机制的网络新闻文本分类模型BiLSTM_Atte模型。运用Word2vec模型与FastText模型实现网络新闻文本的向量化表示,改善了传统文本分类方法对深层语义编码能力不足与效率低下的问题,提升了知识组织效率。通过模型对比实验分析,充分体现了本文所提出分类模型的优越性,为网络媒体运营平台提供科学的决策依据。
限于篇幅,本文只选取了单一网络新闻平台数据作为实验样本,后续研究将扩充实验样本,进一步开展对模型的普适与泛化能力的验证与优化研究,提升网络新闻文本分类模型在数据驱动情境下的泛化能力。并在此研究基础上,与其他深度学习方法相融合,实现更加有效的深层语义挖掘,以期为网络运营平台提供更加精准、高效的智能化知识组织模式。
3218500338236