基于SVM算法的微博评论数据情感分析

2020-02-19 17:54刘春阳赵永翼

数字通信世界 2020年1期

申莹，刘春阳，赵永翼

（沈阳师范大学，沈阳 110034）

0 引言

微博由于其内容简短且十分丰富，时时性强且连接范围广而在Internet用户中非常受欢迎。它已逐渐成为人们表达意见和发泄情绪的一种方式。微博文本的情感分析的主要目的是从微博文本中分析用户对产品、新闻、热点事件和其他评论信息的看法和态度。它也是对用户思维活动和情感的分析。使用深度学习模型分析情感时，必须将文本转换为机器可识别的形式。常用的方法是为文本训练单词矢量，但是以传统方式训练的单词矢量没有充分利用情感信息，人们都在微博在表达情感时，表情符号通常用于表达用户感受。一些研究表明，表情符号比情感词具有更强的情感区别。因此，表情符号的情感特征可以用作分析训练情感的模型的特征向量。

1 相关工作

国外许多著名的国际会议情感分析的趋势持续走高，相关的研究成果层出不穷。Bang等使用电影评论为实验数据，运用机器学习算法对评论进行情感分析的判断。在实验中，预先处理了评论，并分别使用朴素贝叶斯和极端熵模型以不同方式（包括标记语音部分、单个组、双组、否定单词提取等）选择了功能。SVM来确定文本的情感倾向，即正面或负面情绪。最终的实验结果表明，SVM的准确性为83%，在三种机器学习方法中表现最佳。人们渴望通过微博学习信息，并与他人互动并分享自己的情感。这吸引了越来越多的研究人员来分析用户情感。

2 基于话题聚类与情感强度的中文微博舆情分析模型

2.1 数据集成获取与预处理

（1）数据预处理。文字处理是一种非常成熟的自然语言处理技术，包括标记语音部分，分词，标记的实体识别和停用词过滤。根据规则提取微博中的文本，照片，视频和其他信息。根据微博文本的属性过滤URL等，以清除无意义的微博文本。

（2）微博情感信息抽取。单词提取是在预处理数据集中提取用于分类任务的向量的功能。在提取标注词的方法中，使用提取算法来识别高频词，即标注词，其可以代表总体评估中的情感方向特征。

2.2 SVM分类算法

SVM其主要思想是对两类进行分类，并在高维空间中找到理想平面。为了确保分类的准确性，该分类算法指的是满足两个类别的最大分类间隔。从图1和图2可以看到，尽管两者都在分类中起作用，但图3.2中的分类间隔最大，因此它是最佳评级级别。

假设训练集样本是{xi，yi}，其中i∈{1，2，…，m}，xi代表待分类数据，数据被分为第一类，为正向情感，yi=1，反之第二类为负向情感，yi=-1。则平面H：y=w*x+b=0为最优超平面，那么根据以上的定义，必须满足公式：

图1

图2

式中，w为Rn空间中的权向量；b为常数。若数据x满足|w*x+b|≥1。则x支持向量机。如公式（2）所示。

3 实证分析

3.1 实验词性处理

对去噪后的微博文本使用NLPIR汉语分词系统和知网HowNet情感词表分词并进行词性标注。如表1所示。

表1

3.2 情感倾向预测及模型有用性效果分析

根据情感词权重计算情感强度，结果如表2所示。

表2

4 结束语

使用微博文本数据，提出了一种微博舆论分析模型，以帮助分析微博主题的情感方向。实验结果表明，基于SVM微博舆论分析模型可以帮助提高舆论观点情感分析的准确性；更好地理解舆论的方向，以及为更好的商业和政治活动，产品营销或消费行为为决策提供了重要依据。