基于SVM算法的微博评论数据情感分析

2020-02-19 17:54刘春阳赵永翼
数字通信世界 2020年1期
关键词:表情符号分析模型博文

申 莹,刘春阳,赵永翼

(沈阳师范大学,沈阳 110034)

0 引言

微博由于其内容简短且十分丰富,时时性强且连接范围广而在Internet用户中非常受欢迎。它已逐渐成为人们表达意见和发泄情绪的一种方式。微博文本的情感分析的主要目的是从微博文本中分析用户对产品、新闻、热点事件和其他评论信息的看法和态度。它也是对用户思维活动和情感的分析。使用深度学习模型分析情感时,必须将文本转换为机器可识别的形式。常用的方法是为文本训练单词矢量,但是以传统方式训练的单词矢量没有充分利用情感信息,人们都在微博在表达情感时,表情符号通常用于表达用户感受。一些研究表明,表情符号比情感词具有更强的情感区别。因此,表情符号的情感特征可以用作分析训练情感的模型的特征向量。

1 相关工作

国外许多著名的国际会议情感分析的趋势持续走高,相关的研究成果层出不穷。Bang等使用电影评论为实验数据,运用机器学习算法对评论进行情感分析的判断。在实验中,预先处理了评论,并分别使用朴素贝叶斯和极端熵模型以不同方式(包括标记语音部分、单个组、双组、否定单词提取等)选择了功能。SVM来确定文本的情感倾向,即正面或负面情绪。最终的实验结果表明,SVM的准确性为83%,在三种机器学习方法中表现最佳。人们渴望通过微博学习信息,并与他人互动并分享自己的情感。这吸引了越来越多的研究人员来分析用户情感。

2 基于话题聚类与情感强度的中文微博舆情分析模型

2.1 数据集成获取与预处理

(1)数据预处理。文字处理是一种非常成熟的自然语言处理技术,包括标记语音部分,分词,标记的实体识别和停用词过滤。根据规则提取微博中的文本,照片,视频和其他信息。根据微博文本的属性过滤URL等,以清除无意义的微博文本。

(2)微博情感信息抽取。单词提取是在预处理数据集中提取用于分类任务的向量的功能。在提取标注词的方法中,使用提取算法来识别高频词,即标注词,其可以代表总体评估中的情感方向特征。

2.2 SVM分类算法

SVM其主要思想是对两类进行分类,并在高维空间中找到理想平面。为了确保分类的准确性,该分类算法指的是满足两个类别的最大分类间隔。从图1和图2可以看到,尽管两者都在分类中起作用,但图3.2中的分类间隔最大,因此它是最佳评级级别。

假设训练集样本是{xi,yi},其中i∈{1,2,…,m},xi代表待分类数据,数据被分为第一类,为正向情感,yi=1,反之第二类为负向情感,yi=-1。则平面H:y=w*x+b=0为最优超平面,那么根据以上的定义,必须满足公式:

图1

图2

式中,w为Rn空间中的权向量;b为常数。若数据x满足|w*x+b|≥1。则x支持向量机。如公式(2)所示。

3 实证分析

3.1 实验词性处理

对去噪后的微博文本使用NLPIR汉语分词系统和知网HowNet情感词表分词并进行词性标注。如表1所示。

表1

3.2 情感倾向预测及模型有用性效果分析

根据情感词权重计算情感强度,结果如表2所示。

表2

4 结束语

使用微博文本数据,提出了一种微博舆论分析模型,以帮助分析微博主题的情感方向。实验结果表明,基于SVM微博舆论分析模型可以帮助提高舆论观点情感分析的准确性;更好地理解舆论的方向,以及为更好的商业和政治活动,产品营销或消费行为为决策提供了重要依据。

猜你喜欢
表情符号分析模型博文
基于BERT-VGG16的多模态情感分析模型
微信表情符号写入判决:你发的每个表情都可能成为呈堂证供
第一次挣钱
纤维增强复合材料疲劳寿命预测及损伤分析模型研究进展
世界表情符号日
谁和谁好
这个表情符号,你用对了吗
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
全启发式语言分析模型
表情符号玩上瘾 时尚爱尝鲜