中国人民解放军陆军工程大学通信工程学院 江苏 南京 210046
截至2020年3月,我国网络新闻用户规模达7.31亿,手机网络新闻用户规模达7.26亿,占手机网民的81.0%。大多数网民在浏览新闻的同时,通过发表评论来分享个人的意见看法、情感表达,这些由网民发表的评论通常包含着许多个人情感信息、立场倾向,通过收集这些评论信息加以分析,可以初步了解民众对特定事项的观点与看法,从而进一步提炼出舆论走向。
情感分析是指对人们关于某一特定话题的舆论所蕴含的情绪加以分析,而基于新闻评论文本信息的情感分析可以有效地梳理民众针对新闻报道的舆论走向,用于应对突发事件和异常情况检测,有助于网络舆情体系的完善。此外,新闻评论情感分析还广泛地应用于心理学、金融学、社会学等相关领域。
新闻评论情感分析的相关方法,可归纳为三个步骤:新闻评论语料库的预处理、新闻评论情感特征的提取和新闻评论情感分类。新闻评论语料的预处理主要包含过滤文本中的停用词、标注分词词性、分析文本语法等;新闻评论情感特征的提取是根据上一步预处理的结果,遵循一定挖掘规则提取出新闻评论中蕴含的情感特征;最终通过机器学习形成分类树,根据新闻评论的情感特征将其归类,实现新闻评论文本的自动聚类。
新闻评论语料库的预处理是新闻评论情感极性分析的首要阶段,包括分词、删除停用词、词性标注和句法分析等步骤,将日常人们习惯用语文本数据转换为计算机可以识别的结构化文本数据。分词处理是将语料库中的文本划分成单个词语,相比于英文语句中空格可以直接作为切分的依据,中文语句的分词更为复杂,需要通过将语句与词典中的词语相匹配等方法来进行分词处理,也有利用隐马尔科夫模型(HMM,Hidden Markov Model,)、条件随机场(CRF,CanditionalRandom Field)、互信息(MI,Mutual Information)等概率统计模型的分词方法,也可以引入语义和句法分析的分词方法[1]。分词处理之后,需要对每个划分出来的词语进行词性的判断,比如动名词、副词、形容词、介词、语气词等等,并删除不包含情感信息的介词、代词、停用词等,最后再根据句子的语法区分新闻评论文本的主谓宾,总结归纳出句法结构,具体预处理过程如图1所示。
图1 新闻评论语料库的预处理
用计算机处理文本的情感特征提取,首先需要将原本的文本数据转化成计算机可识别的机器语言,目前最常用的分类模型为向量空间模型(VSM,Vector Space Model),即将文本特征与相应的特征权重相结合形成有极性的特征向量。
首先作为比对的依据需要构建情感词典,根据情感词典一一判断上一步中划分出的词语所具有的极性,对于词典中未注册单词,可以使用Word2Vec、Doc2Vec等通过语义相似度转化为同义词来确定单词的极性。采用类似方法做过研究的如王晓东等人在文献[2]中提出的Ontology模型,通过构建情感Ontology将语句中有代表性的情感特征词语抽离出来,根据该特征词语的情感极性判断原文本所具有的情感极性。还有王素格等人在文献[3]中提出的判别近义词词汇情感倾向的方法,这一方法不同的是在建立情感分析词典时,认为同义词之间在情感分析上具有同样的倾向性。从以上的分析不难看出这一情感分析方法的关键在于建立完善的情感词典,但随着时代、网络的发展,人们在发表新闻评论时涉及的新鲜词汇也逐渐丰富,一时间难以穷尽,这给情感词典的构建带来了不小的挑战。
当涉及的语料库数据规模较大时,需要通过数据挖掘的方法抽取一般的语法特征,总结规律,可运用机器学习算法对文本进行处理,实现情感分类。类似的处理方法如文献[4]通过分析二元语法的情感倾向建立互信息特征模型,而后利用机器学习算法获得情感分类器,对语料库中的文本进行情感判断与分类。
现在的网络用语及快餐文化,经常会包含一些表情符号,用户在发表评论时也常常会夹杂着表情来表达观点和情绪,常见的表情符号如图2所示,这些表情符也可以辅助我们有效地为文本做出情感分类。文献[5]所提出的情感分析方法是多维的,通过深度学习,在文本的多维特征中引入表情特征,提高了情感分类的效率与准确度。
图2 常见表情符号
机器学习是建立情感词典的重要算法,而深度学习是其重点研究的领域,其中最常用作情感极性分析的两种模型工具就是卷积神经网络(CNN)和递归神经网络(RNN)。
卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的神经网络,主要由输入层、卷积层、池化层和输出层构成如图4。其中卷积结构有效降低了深层网络占用的内存量,减少了卷积神经网络的参数总量,提高了网络结构的稳定性和泛化能力,缓解模型的过拟合问题。Kim等人在文献[6]提出了一种模型可运用CNN对新闻评论进行文本分类,将预先训练好的词向量矩阵作为卷积神经网络的输入层,训练出神经网络模型,进而实现数据类别的预测。
图3 CNN文本分类模型结构图
与卷积神经网络相比,循环神经网络(RNN)没有固定大小的卷积核窗口,没有烦琐的用来调节卷积核大小的参数,他是一类以序列数据为输入的递归神经网络,是深度学习领域中所有节点按照链式连接的神经网络,其最大的特点就是循环单元在某一时刻的输出可以作为输入再次输入到循环单元,有效避免了普通神经网络输入输出相互独立的缺陷,通常用于处理包含时间序列的数据。图4给出了循环神经网络的网络结构,其中ht为输出层,A为隐藏层,xt为输入层,前一时刻的网络状态可以通过隐藏层上的链式连接传递给当前时刻,同理,当前时刻的状态也可以传递给下一时刻,保持了数据中的依赖关系。
图4 RNN网络结构图
长短期记忆网络(LongShort-TermMemoryNetwork,LSTM)[7]在1997年由Hochreiter等人提出,在语音识别、语言建模、机器翻译等多领域都得到了广泛的应用。它是一种常见的循环神经网络,其优势主要体现在处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM含有一个“门”结构用来对决定细胞状态中输入的信息是否要被记住或是输出,由此更新每一层的隐藏状态,鉴于其可以改进一般RNN模型训练中可能出现的梯度消失问题,LSTM通常可作为非线性模型用于文本建模、连续手写识别、自主语音识别等,其结构图如图5所示。
图5 LSTM结构图
然而上述提到的几种神经网络虽有各自的优势,但本质上都是将单个句子或文本作为神经单元的输入,通过形成深度神经网络,提取相关特征信息并将原数据分类。这使得句与句之间的关联性信息丢失,上下文之间的局部信息难以体现。针对这一点,文献[8]提出了LSTM与注意力机制相结合的新型神经网络LSTM-Attention,该神经网络主要包含六个部分:文本向量化层、词语信息特征提取层、词语Attention层、句子信息特征提取层、句子Attention层、文本分类层,旨在提取学习分层次网格结构的文本信息的基础上,还可以实现对重要的词语和句子的特征提取。该神经网络模型整体框架如图6所示。
图6 LSTM Attention神经网络整体框图
利用LSTM-Attention对新闻评论进行文本分类,主要经过6层操作。词语构成句子,句子构成评论文本,这六层的操作可分别作用于词语和句子层面,通过分别提取相应特征对整个新闻评论进行分析。
综上所述,卷积神经网络模型仿造生物的视知觉机制,注重全局感知,忽视了词句之间的关联性,而长短期记忆神经网络可以体现更多的文本间信息的长期依赖性,弥补模型训练中的不足,在引入注意力机制后,可通过调整权重系数进一步确定对不同文本的关注度,使得预测与分析更加全面,有效提高了舆情走向判断的准确率。
随着大数据时代的到来,世界信息的储备量日益倍增,利用机器学习对海量评论信息的分析处理可以得到很多有意义的信息,关于文本的情感分析也有着重要的科研和实际生活应用。
本文对文本情感分析的常用方法进行了简要的归纳介绍,其中深度学习领域处于这些方法的核心手段,有进一步深入研究学习的必要性,当前也有许多新兴算法结构在被提出,不断地改进文本情感分析的处理方式以得到更优的结果,这也是我们下一步需要考虑的关键所在。