基于情感分析的文本检索系统的研究

2019-12-23 07:16黄丽娟周海
科技创新与应用 2019年36期
关键词:情感分析神经网络

黄丽娟 周海

摘  要:针对目前文本挖掘的情感分析方法的准确性、实时性、提取等问题,构造一种神经网络混合模式,使用记忆神经网络和卷积神经网络对文本特性的提取,再利用情感分析方法进行挖掘。实验表明对文本挖掘的准确性提高了,这种模式在应用中有很大的实用性。

关键词:情感分析;神经网络;语义特性

中图分类号:TP389.1        文献标志码:A         文章编号:2095-2945(2019)36-0058-02

Abstract: In order to solve the problems of accuracy, real-time and extraction of emotion analysis methods in text mining, a hybrid model of neural network is constructed, and memory neural network and convolution neural network are used to extract text characteristics. And then use the method of emotional analysis to carry out mining. The experimental results show that the accuracy of text mining is improved, and this pattern is very practical in application.

Keywords: emotional analysis; neural network; semantic characteristics

近年来,伴随着互联网技术的飞速发展,电商平台上的消费者对商品评论,怎样对它进行分析和挖掘,并将挖掘出的信息应用到销售,已经成为文本的情感分析的研究重点方向。

情感分析可以从统计学,机器学和神经网络三种方法进行情感分析。统计学通过对短语进行标示,再用情感词库计算关键字的情感分数,然后加起来,得出情感得分。常用的情感词典有很多,都取得较好的效果,提高了文本情感分析的准确性,但是,情感词库的规模和文本情感分析的准确性联系密切,使模型的实时性不高。机器学习通过构建结构化的文本特点,进行情感分析,都取得不错的效果,但是实时性很差。神经网络通过词向量模型将文本转成了实数向量,然后通过学习词向量特性得到文本的情感分数。单个的神经网络模型进行文本情感分析都取到很显著的效果,但都未集中思考文本信息和语义特点对情感分析的作用。这三种情感分析方法各有优缺点。统计学的方法:用情感词库统计情感得分,提高了文本的情感分析的准确性,但情感分析的文本的准确性和情感词库规模的关联很大,实时性差。机器学习的方法:用人工标示的方式来构建文本特点,能够提升文本情感分析的准确性,但需要比较多的人工构造特性,实时性差,效率低。神经网络的方法:在文本词汇中自动提取语义特性,但是,使用一种神经网络模型提取特性,只能提取一种信息或特点。综上所言,据于现在的文本情感分析方法,很难适应互联网的大规模的文本,也不能解决文本信息和语义特性的提取的同时性等问题,提出一种串行的文本情感分析方法,基于卷积神经网络和长短时记忆神经网络。(1)需要通过长短时记忆神经网络提取全部文本特性,兼顾自然语言的前前后后的语义信息。(2)通过卷积神经网络提取局部文本特点,因此提升文本情感分析的准确性。

长短时记忆神经网络和卷积神经网络串行模型分为数据处理、文本向量化、提取特性、情感分类。

数据处理主要处理文本里的数据去掉符号,留下有价值的文本,使用中文分词组件进行分割词语,使用停用词表把噪声数据去除,把文本数据里的标签转化为数字,1表示为正面情感,0表示为负面情感。因为所有的这些评论的内容文本都是由不一样的用户抒发而写出来的,很自由的形式,千变万化,语法格式不同,模式不同,并且评论的文本既包含有语义信息,又包括有其他的噪声的大量数据。为了让噪声数据对文本情感分析的影响不大,需要进行以上的预处理的操作。

文本向量化可以采用词向量组件Wdord2Vec的词袋模型或者是跳字模型,经过多次训练,选出效果显著的模型,通过比较分析,本次工作选用Word2Vec的跳字模型进行文本向量化,预测效果比较好,模型泛化能力比较强。由于大量的评论是由用户自由地有感而发出来的,没有统一结构的语法和模式结构,都是一些非结构化的特性,所以不能使用现有的模型(统计模型和数字模型)来进行数据分析与处理。

假设评价文本M={M(1),M(2),M(3),…,M(n)},以第j个词语为中心词语进行操作词汇文本向量化,写为(V(M(j),Context((M(j))),以上的其中V(M(j)为评价文本M中心词M(j)的词向量,Context(M(j))为w(j)的评价上下文词向量。使用Skip-gram模型的键入、投映和输出三层结构来进行词汇文本向量化转化,评价文本M的第j个词M(j)为中心词,输入层作为中心词M(j)的第一个词向量V(M(j)),经过从输入层然后到投影层都是恒等投影,即用V(M(j)投影到V((j));投影层再到输出层。然后根据以下公式计算M(j)的全部文本词汇向量。

P(V(M(i)) I V (M(t)))

其中:V(M(i)) ε Context(M) ; t为中心词号码;i为中心词上下文词汇和中心词的范围。从第一个根节点开始,投影层的值沿着霍夫曼编码树进行邏辑回归进行分类,输出M(j)的周围第2n个全部上下文词汇文本的词向量。例如,如果n取4,那中心词w(t)的前面两个词为M(j-4)},M(j-3),后两个词为M(j+3),M(j+4),它们对应的词向量为V(M(j-4)),V(M(j-3)),V(M(j+3)),V(M(j+4)),也就是Context(M)={V(w)={V(M(j-4)),V(M(j-3)),V(M(j+3)),V(M(j+4))}。

提取文本信息采用长短时记忆网络能够对文本语义信息的挖掘,能够准确挖掘文本语义。所有用户书写的评论是一种自然语言的表现方式,是自由的形式,但结构在全文中会有依赖关系。根据文本的上下文信息,理解文本语义更加准确。典型的神经网络能挖掘出文本的上下文语义信息和时序信息。长短时记忆神经网络模型的门的计算如下式:

ft=σ(Wf·[ht-1,xt]+bf)

it=σ(Wi·[ht-1,xt]+bi)

Ot=σ(Wo·[ht-1,xt]+bo)

Ct=tanh(Wc·【ht-1,xt】+bc)

其中:Wf表示连接遗忘的权重矩阵;Wo表示连接输出门的权重矩阵;Wi表示连接输入门的权重矩阵;bf表示输遗忘门的偏移值;bo表示输出门的偏移值;bi表示连接入门的偏移值;×表示两个矩阵元素的相乘。

虽然长短时记忆神经网络解决了长期依赖和梯度消失问题,但是长短时记忆神经网络只能训练文本的上文数据,而不能文本的下文数据信息。因为一个词的语义既和文本的上文数据信息有关,还和文本的下文数据信息密切联系,所以利用双向循环长短时记忆神经网络代替长短时记忆神经网络,整合下文信息。双向循环长短时记忆神经网络模型是由两个长短时记忆神经网络网络通过上下叠加整合构成。在双向循环长短时记忆神经网络模型中,每一个时间点都会同时存在方向不同的两个长短时记忆神经网络中的门。其中,ht表示t時刻的长短时记忆神经网络的正向输出;hv表示t时刻的长短时记忆神经网络的反向输出;ht表示t时刻的双向循环长短时记忆神经网络的输出。Xt表示t时刻的输入。双向循环长短时记忆神经网络模型中每一个时刻状态计算如下式所示。

Ht=LSTM(xt,ht-1)

Hv=LSTM(xt,ht-1)

Ht=Mtht+vthv+bt

其中,Mt表示正方向输出的权重矩阵;Vt表示反方向输出的权重矩阵;bt表示t时刻的偏移量。基于双向循环长短时记忆神经网络的语言模型结构,其中,V(M(i))表示第i个评价文本词汇的词向量,1<_i<_n。假设评价文本W={M(1),M(2),M(3),…,M(n)},首先将评价文本M中的词(i)使用词向量组件Word2Vec转化为对应的词向量V(M(i)),并将词M(i)组成的文本句子映射成为文本句子矩阵Sij,其中Sij={V M(1),VM(2),VM(3),…,V(M(i))},1

提取局部语义特性采用卷积神经网络进行提取文本的局部语义特性。提取文本情感特性流程包括输入层和嵌入层,输入层主要将处理好的预处理的评论文本进行向量化的转化。嵌入层主要是将词向量进行拼合连接,生成向量的矩阵。然后用滤波器提取局部语义特性,再对不同的卷积提取的语义特性进行集中提取,再进行连接。然后通过输出层的函数方法softmax进行计算每个类别的概率来进行文本情感的分类。分类公式如下所示。

yi=soft max (Midijt+bi)

其中:Mi表示Dense_RANK到输出层的权重矩阵;bi表示相应的偏移值;dijt表示在t时刻Dense_RANK的输出向量。

通过这种模型的分析,结果显示出采用长短时记忆神经网络和卷积神经网络串行模型首先提取全部文本特性再提取局部文本特性,再进行文本性感分析全部和局部特点,得出较理想的结果。

参考文献:

[1]聂琼.浅谈遗传算法与人工神经网络的结合[J].轻纺工业与技术,2012,41(06):35-37.

[2]曾瑜民.探讨神经网络算法在人工智能识别中的应用[J].信息通信,2019(07):104-105.

[3]赵宏,王乐,王伟杰.基于BiLSTM_CNN串行混合模型的文本情感分析[J].计算机应用,2019:1-9.

猜你喜欢
情感分析神经网络
基于人工智能LSTM循环神经网络的学习成绩预测
基于图像处理与卷积神经网络的零件识别
基于改进VGG-16神经网络的图像分类方法
基于自适应神经网络的电网稳定性预测
三次样条和二次删除相辅助的WASD神经网络与日本人口预测
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于BP神经网络PID控制的无刷直流电动机调速系统设计
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析