申 莹,刘春阳,赵永翼
(沈阳师范大学,沈阳 110034)
微博由于其内容简短且十分丰富,时时性强且连接范围广而在Internet用户中非常受欢迎。它已逐渐成为人们表达意见和发泄情绪的一种方式。微博文本的情感分析的主要目的是从微博文本中分析用户对产品、新闻、热点事件和其他评论信息的看法和态度。它也是对用户思维活动和情感的分析。使用深度学习模型分析情感时,必须将文本转换为机器可识别的形式。常用的方法是为文本训练单词矢量,但是以传统方式训练的单词矢量没有充分利用情感信息,人们都在微博在表达情感时,表情符号通常用于表达用户感受。一些研究表明,表情符号比情感词具有更强的情感区别。因此,表情符号的情感特征可以用作分析训练情感的模型的特征向量。
国外许多著名的国际会议情感分析的趋势持续走高,相关的研究成果层出不穷。Bang等使用电影评论为实验数据,运用机器学习算法对评论进行情感分析的判断。在实验中,预先处理了评论,并分别使用朴素贝叶斯和极端熵模型以不同方式(包括标记语音部分、单个组、双组、否定单词提取等)选择了功能。SVM来确定文本的情感倾向,即正面或负面情绪。最终的实验结果表明,SVM的准确性为83%,在三种机器学习方法中表现最佳。人们渴望通过微博学习信息,并与他人互动并分享自己的情感。这吸引了越来越多的研究人员来分析用户情感。
(1)数据预处理。文字处理是一种非常成熟的自然语言处理技术,包括标记语音部分,分词,标记的实体识别和停用词过滤。根据规则提取微博中的文本,照片,视频和其他信息。根据微博文本的属性过滤URL等,以清除无意义的微博文本。
(2)微博情感信息抽取。单词提取是在预处理数据集中提取用于分类任务的向量的功能。在提取标注词的方法中,使用提取算法来识别高频词,即标注词,其可以代表总体评估中的情感方向特征。
SVM其主要思想是对两类进行分类,并在高维空间中找到理想平面。为了确保分类的准确性,该分类算法指的是满足两个类别的最大分类间隔。从图1和图2可以看到,尽管两者都在分类中起作用,但图3.2中的分类间隔最大,因此它是最佳评级级别。
假设训练集样本是{xi,yi},其中i∈{1,2,…,m},xi代表待分类数据,数据被分为第一类,为正向情感,yi=1,反之第二类为负向情感,yi=-1。则平面H:y=w*x+b=0为最优超平面,那么根据以上的定义,必须满足公式:
图1
图2
式中,w为Rn空间中的权向量;b为常数。若数据x满足|w*x+b|≥1。则x支持向量机。如公式(2)所示。
对去噪后的微博文本使用NLPIR汉语分词系统和知网HowNet情感词表分词并进行词性标注。如表1所示。
表1
根据情感词权重计算情感强度,结果如表2所示。
表2
使用微博文本数据,提出了一种微博舆论分析模型,以帮助分析微博主题的情感方向。实验结果表明,基于SVM微博舆论分析模型可以帮助提高舆论观点情感分析的准确性;更好地理解舆论的方向,以及为更好的商业和政治活动,产品营销或消费行为为决策提供了重要依据。