基于卷积神经网络的社交媒体文本情感分析

2018-09-10 11:41陆正球王麟阁周春良
现代信息科技 2018年2期
关键词:情感分析卷积神经网络

陆正球 王麟阁 周春良

(宁波大红鹰学院信息工程学院,浙江 宁波 315175)

摘 要:随着各类社交媒体上的评论数据数量的急剧增加,从大量的评论数据中挖掘出其所包含的情感信息具有越来越高的商业价值。本文提出了一种基于卷积神经网络的社交媒体情感分类模型,首先通过包含酒店评论在内的语料库完成词向量的初始化,而后通过卷积网络层、隐含层、嵌入层和分类层完成评论数据的情感分类。实验结果表明,基于卷积神经网络的情感分类模型无论是面对不同维度的词向量模型还是不同比例的测试集,都能够得到较高的分类准确率。

关键词:情感分析;卷积神经网络;词向量

中图分类号:TP391.41;TP183 文献标识码:A 文章编号:2096-4706(2018)02-0089-04

Social Media Text Sentiment Analysis Based on Convolutional Neural Network

LU Zhengqiu,WANG Linge,ZHOU Chunliang

(Ningbo Dahongying University School of Information Engineering,Ningbo 315175,China)

Abstract:With the number of comments on all kinds of social media increased dramatically,it has higher and higher commercial value while mining emotional information contained in a large number of comments. This article puts forward a social media sentiment classification model based on convolutional neural network. It at first finishes the word vector initialization through a corpus of hotel reviews,and then realizes the sentiment classification through convolutional network layer,hidden layer,embed layer and classification layer. Experiment results show that the emotion classification model based on convolutional neural network can get higher classification accuracy in terms of different dimension word vector models or in different proportion of test sets.

Keywords:sentiment analysis;convolutional neural network;word vector

0 引 言

随着互联网的迅猛发展和各类社交媒体的涌现,世界各地的用户已经习惯于在互联网上发表意见、表达情感。例如,在微博和微信等社交媒体上,人们可以自由地以文本、图片等形式发表对公共热点事件的评论,可以在电商平台上浏览商品并对商品的质量进行评论,也可以在酒店网站上对酒店住宿服务进行评论。这些评论中包含个人情感取向,因此如何高效挖掘隐藏于这些评论中的观点,并对这些海量用户生成的数据进行情感分析,将有助于政府获取大众对于有关政策的意见,商家也可以根据用户对商品的评论调整营销策略。因此,针对社交媒体的情感分析已成为国内外相关领域的研究热点。

1 情感分类方法

1.1 基于情感词典的文本情感分类方法

在基于情感词典的情感分析方法中,一般是將文本看作词语或多词短语的集合。它的核心模式是“词典+规则”,也就是将判断情感极性的主要依据放在情感词上面,并设计相应的判断规则。文献[1]是基于词典的情感分类方法中最具代表性的,通过分析评论中的形容词和副词短语的语义指向来预测评论的类别,将互联网上的评论分为“推荐”和“不推荐”两类。

而后Kamps和Marx[2]使用Word Net判断词语的情感倾向性。Budanitsky和Hirst[3]利用情感相似度来计算词语的情感倾向性。文献[4]根据情感词典包含的有情感倾向的词或短语得到正面情感或负面情感的得分。

1.2 基于机器学习的文本情感分类方法

基于机器学习的文本情感分析方法的优势在于,它们具有对多种特征建模的能力。Pang等人利用基本的词特征和朴素贝叶斯、最大熵和支持向量机等机器学习方法来解决情感分析问题。

随后,Pang和Lee等人[5]通过加入预处理过滤器去除客观句,让同一个电影评价数据集的准确率从82.9%提升到86.4%。Cui等人[6]则证明了区分式分类器比一般的模型更加适用于情感分析任务。

Read等人[7]提出了一个对于领域、主题和时效没有依赖的用于情感分析的机器学习算法,Li等人[8]提出的机器学习算法能够动态地生成新的语料,解决了语料不平衡问题。Yu等人[9]研究发现协同训练的半监督学习算法能够达到最好的分类性能。Liu等人[10]提出的自适应多分类SVM模型,可以将一个普通情感分类器转变成一个主题自适应的情感分类器。

2 基于卷积神经网络的情感分类

当前,深度学习逐渐成为机器学习的热门研究方向,其在不同应用问题上的推广能力也得到了一定的验证,如图像识别、语音识别等。越来越多的学者开始尝试将深度学习引入自然语言处理领域,进而弥补了传统的机器学习方法的不足。由此,本文提出基于卷积神经网络的弱监督学习模型用来解决文本的情感分析任务。

2.1 卷积神经网络概念

卷积神经网络(CNN)使用的是普通的神经元网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。卷积(Convolution)在泛函分析中是作用在两个函数上的一种数学算子,所生成的函数是表征函數f与g经过翻转和平移的重叠部分的面积。

设f(x)和g(x)是R1上两个可积函数,则这两个函数的卷积可以由以下公式求得:

(1)

通常卷积神经网络中包含4种不同的层,他们分别是:输入层、卷积层、池化层、全连接层。其中卷积层完成对输入数据的局部特征的描述,池化层可在此基础上进一步提取出局部特征中最重要的部分。

2.2 基于卷积神经网络的情感分类模型

基于卷积神经网络的情感分类模型包括情感文本输入层、卷积网络层、隐含层、嵌入层和分类层,如图1所示。

2.2.1 输入层

输入层针对输入语句中的每个词语查询向量列表以得到对应的词向量,本文使用Word2Vec将网络上爬取的社交媒体文本数据进行初始化,同时将社交媒体上弱标注信息进行离散化打标签,通过标签分配,将评论语句划分到正面和负面两个集合中。

2.2.2 卷积网络层

卷积网络层包含多个卷积滤波器,每个滤波器通过滑动能容纳n个词汇的窗口进行卷积计算,进而生成局部特征值,计算公式如下:

u(i)= f(W T xi:(i+n-1)+b) (2)

其中xi:(i+n-1)表示输入语句位置i窗口中词向量首尾相接的向量,而后获取向量u中最显著的特征值。

2.2.3 隐含层

隐含层将所有神经元之间全连接,以卷积网络层的结果作为输入,通过非线性激活函数得到更高层次的特征向量h,采用标准的前向传播方式。

h=f(Wh ν+bh) (3)

其中,Wh是权重矩阵,bh是偏置向量。

2.2.4 嵌入层

在嵌入层中引入上下文向量。类似输入层获取词向量列表,从上下文向量中查询所有上下文,列表的初始值由随机初始化获得。嵌入层的计算公式如下:

(4)

其中h是隐含层的输出结果,a是上下文向量。

3 实验

首先从互联网上爬取经过处理的酒店评论数据进行训练和测试,一共6000条数据,其中积极评价和消极评价各3000条,实验结果最后以10折交叉验证的方式对模型的正确率进行评估。

本文卷积神经网络的训练和测试实验环境如表1所示。

卷积首先对不同词向量下的酒店评价准确率进行测试,并与线性SVM算法进行比较,本文采用了50、100和200维度下的词向量进行评价语句的映射,实验结果如图2所示,可以看到基于CNN的文本情感分类的准确率都高于SVM算法。

而在卷积神经网络中,数据集中训练数据集和测试数据集的分割比例对文本情感分类也有一定的影响,不同测试集的情感分类的准确率如图3所示。从中可以看出,在只有10%的训练数据的情况下,情感分类的准确率已经接近80%,主要原因在于酒店评论中加入了弱标注信息,并进行了一定的噪声处理。

图3 不同测试集比例下的准确率

此外,滑动窗口的大小对卷积神经网络有一定的影响,这里采用多种形式,包括单一滑动窗口和多滑动窗口,实验对比结果如表2所示。实验结果表明,当窗口数量的个数包含5的时候,数据的准确率较高。

4 结 论

本文对社交媒体文本的情感分类问题进行了研究,提出了一种基于卷积神经网络算法的情感分类模型,并对6000条酒店评论数据进行了测试,结果表明基于卷积神经网络的情感分类方法具有较高的准确率。

参考文献:

[1] Turney P D. Thumbs Up or Thumbs Down:Semantic Orientation Applied to Unsupervised Classification of Reviews [C]//Proceedings of Annual Conference of the Association for Computational Linguistics,2002:417-424.

[2] Kamps J and Marx M. Words with Attitude[C]//Proceedings of International Conference on Global Word Net,2002:332-341.

[3] Budanitsky A,Hirst G. Evaluating Wordnet-based Measures of Lexical Semantic Relatedness [J].Computational Linguistics,2006,32(1):13-47.

[4] Pang B,Lee L. Opinion Mining and Sentiment Analysis [J]. Foundations and Trends in Information Retrieval,2008,2(1-2):1-135.

[5] Pang B,Lee L,Vaithyanathan S. Thumbs up:Sentiment Classification using Machine Learning Techniques [C]//Proceedings of Annual Conference of the Association for Computational Linguistics,2002:79-86.

[6] Cui H,Mittal V,Datar M. Comparative Experiments on Sentiment Classification for Online Product Reviews [C]//Proceedings of American Association of Artificial Intelligence,2006:1265-1270.

[7] Read J,Carroll J.Weakly Supervised Techniques for Domain-independent Sentiment Classification [C]//Proceedings of International Conference on Information and Knowledge Management Workshop on Topic-sentiment Analysis for Mass Opinion,2009:45-52.

[8] Li S,Wang Z,Zhou G,Lee S Y M. Semi-supervised Learning for Imbalanced Sentiment Classification [C]//Proceedings of International Joint Conference on Artificial Intelligence,2011:1826-1831.

[9] Yu N,Kübler S. Filling the Gap:Semi-supervised Learning for Opinion Detection across Domains [C]//Proceedings of Annual Conference of the Association for Computational Linguistics,2011:200-209.

[10] Liu S,Li F,Li F,Cheng X,Shen H. Adaptive Co-training SVM for Sentiment Classification on Tweets [C]//Proceedings of International Conference on Information and Knowledge Management,2013:2079-2088.

猜你喜欢
情感分析卷积神经网络
基于语义的互联网医院评论文本情感分析及应用
基于双向循环神经网络的评价对象抽取研究
基于卷积神经网络温室智能大棚监控系统的研究
基于深度卷积神经网络的物体识别算法
基于SVM的产品评论情感分析系统的设计与实现
基于词典与机器学习的中文微博情感分析
在线评论情感属性的动态变化
深度学习算法应用于岩石图像处理的可行性研究
基于深度卷积网络的人脸年龄分析算法与实现
基于卷积神经网络的树叶识别的算法的研究