基于共现概率训练的情感词典的扩充

2019-12-04 11:33季鹏飞王先超张顺香
关键词:新词锦鲤词典

季鹏飞,王先超,张顺香*

(1.安徽理工大学 计算机科学与工程学院,安徽 淮南 232001;2.阜阳师范大学 计算机与信息工程学院,安徽 阜阳 236037)

随着计算机的发展,越来越多人接触互联网,从原先的PC端用户,现在统一转向移动网络端用户,人们在网络上、社交媒体上,更多的发挥出自己的价值观和对事物的评论,在社会舆论的情况下,政府怎么才能引导舆论和预防引发的社会动荡控制。本文运用共现概率对原有的HowNet情感词典和中文情感词典进行扩充,进而更好的分析研究人们的情感评论,对社会舆论进行更好的监控与分析。本文是基于共现概率的情感词典的规则方法对情感词典的扩充。

1 相关工作

情感词典的扩充是对人脑的简单模拟,其核心模式是基于词典和规则,即以情感词典作为判断评论情感极性的主要依据,以下文献是根据以往经验和现有词汇做出评价的模型,通过句子出现的情感词,预测该句子的情感极性从而进行的扩充。

李鼎宇等人为了提高跨领域短文本情感分类的准确率,提出了面向短文本的跨领域情感分类算法[1]。谢松县等人提出了一种基于混合特征的中文情感词典扩展方法[2]。周咏梅等提出利用上下文熵对微博中的网络用语进行提取[3]。王志涛等人提出了基于词典和规则集的中文微博情感分析方法[4]。马秉楠等人提出一种基于社交网络中特殊情感符号的跨媒体多情绪(喜怒哀乐)情感词典构建方法[5]。邵帅等人提出了一种基于关键句分析的微博情感倾向性分析方法SOAS[6]。施寒潇等人提出了利用依存句法对微博短文本进行分析,提高情绪句的判别正确率[7]。延丰等对句子向量利用支持向量机(support vector machine,SVM)和K均值算法分类,获取情感股票文本的情感倾向比例[8]。姜伶伶等提出一种基于Good-Turing平滑的SO-PMI算法[9]。赵妍妍等构建了一个十万词语/词组的大规模情感词典[10]。王文远等重新度量其中情感词的倾向值,改进现有的情感词典[11]。桂斌等提出基于微博表情符号自动构建情感词典的方法[12]。张璞提出一种利用语料库来构建情感词典的方法[13]。Hunang等提出SVM分类结合Stanford句法依存分析方法[14]。Tao等人就不同类型句子的情感分析提出了一种分而治之的方法[15]。Yassine等人提出了随机森林方法的支持向量机(random forest support vector machine,RFSVM)[16-17]。Rao等人通过改进的信息瓶颈算法完成聚类的建立情感词典[18]。Mei等基于台大意见词词典和情感词集中的情感词集进行交叉操作形成候选情感词集[19]。Lee等基于面部动态包含面部表情识别的有用信息构建情感词典[20]。

上述文献无论是情感词典的构建还是判断规则质量,都需要耗费很多人力和先验知识,本文通过共献概率扩充,对情感词典进行修改,改善了原有的情感词典。

2 基于共现概率的情感词典的扩充

本文是基于共现概率训练的情感词典的规则方法对情感词典进行的扩充。首先通过预处理、自动分词再载入情感词典通过共现概率算法扩充情感词典然后文本情感分类,最后迭代直至不再扩充情感词,如图1。

图1 基于共现概率训练的情感词典的扩充

2.1 文本预处理

通过运用网络爬虫技术从微博、社区中收集到大量的评论数据,爬取原始语料。由于本文所研究的微博微博的文字随意性以及信息碎片化,因此需要删除一些非文本元素,去除网页链接、动画、视频、图片、繁体转简体和英文转中文。然后为了判断句子中是否存在情感词典中相应的词语,需要把句子准确分割为一个个词语,也就是分词处理,在这里选用“中科院分词”作为工具。

2.2 情感词典扩充的算法公式

在本文预处理之后的文本中,首先将文本中出现的传统情感词典,如HowNet情感词典、中文情感词典记录下来,然后提取出与传统词典的词性相似的词语,这些暂时称为新情感词(下文统称新词),即有可能是情感词。

定义1传统情感词典bn

传统情感词典bn是一个词向量。根据HowNet情感词典和中文情感词典,在这里统一称为传统情感词典bn

其中:bn代表传统情感词典,wi(i=1,…,n)都是传统情感词典里中的词。传统情感词典包括情感词典的积极情感词典、消极情感词典、否定词典以及程度副词词典。

定义2新词共现概率PMI(fi,fj)

新词共现概率PMI(fi,fi)是获得评论中的情感词包括形容词、副词、动词、名词,经过计算获得的概率值,即:F={f1,f2,…,fn} ,基于 HowNet情感词典,利用点互信息(pointwise mutual information,PMI)算法来确定情感特征词的语义相似度。特征词fi∈F,fi∈F(i,j∈N)的 PMI计算公式为

其中:p(fi,fj)表示情感特征词fi和fj共同出现的概率;p(fi)表示评论中包含情感特征词fi出现的概率。

定义3新词情感概率αi

新词情感概率是判断新词是否为新情感词的概率。新词情感概率αi是新词f和情感词典的每个词语求共现概率的平均值,即

定义4新词情感概率倾向SO-PMI(fi)。

新词情感概率倾向SO-PMI(fi)是计算特征词的情感倾向的值。其计算是给新词划分在情感词典的哪一个部分。

其中:PosWords表示HowNet正向情感词的集合;NegWords表示HowNet负向情感特征词的集合。当SO-PMI(fi)>0时,表示fi为正向情感词;当SO-PMI(fi)<0时,表示fi为负向情感词。SOPMI(fi)的值为下步新的情感词分类赋予正或负权值。

经过微博微博信息爬取,预处理、自动分词和通过新词共现概率以及新词情感概率的计算,得到了正向情感词和负向情感词,但是仍然不能进入情感词典。要将新词扩充到情感词典,还需要算出的情感词大于一定阈值,然后载入情感词典,接着迭代计算将新词不断扩充到情感词典,直至情感词典不再扩充。

2.3 基于共现概率训练的情感词典的扩充算法

基于共现概率的情感词典扩充算法如下:

算法名称:共现概率的情感词典扩充算法

输入:微博爬取下来的文本S,给定阈值μ,情感词极SO-PMI(fi)

输出:新的情感词典bn。

3 实验

3.1 实验方法

为了验证基于共现概率的情感词典的扩充,本文从新浪微博上爬虫评论,然后句子进行预处理、分词、载入情感词典去重整合,通过计算共现概率大于阈值扩充情感词典,然后计算情感倾向值,迭代直至扩充完毕。

3.2 实验

(ⅰ)第一次迭代

通过在微博评论进行爬取,然后对句子进行预处理、分词、载入情感词典去重整合,计算共现概率大于阈值扩充情感词典。

首先在微博文本中有效地提取出6个传统词:喜悦、保佑、害怕、忏悔、通情达理、心烦意乱,和6个新词:盘他、安排、冲鸭、锦鲤、真香定理、大猪蹄子。算出共现概率值和新词情感概率值,然后将新词情感概率阈值设为0.6,如果新词的新词情感概率大于0.6,新词进行扩充到情感词典。

第一次新词扩充完毕,可算出新词情感概率和新词情感概率倾向,如表1。本算法可有效地识别新词是否可以扩充到传统词典。因此,第一次“锦鲤”和“冲鸭”加入情感词典。最后并且对于加入的新情感词并且计算情感倾向,如果情感倾向大于0,新词为正向情感词,所以“锦鲤”和“冲鸭”为正向情感词。

(ⅱ)第二次迭代

根据第一次共现概率的计算,扩充2个新词到情感词典,所以传统词变成了“喜悦”、“保佑”、“通情达理”、“忏悔”、“害怕”、“心烦意乱”、“锦鲤”和“冲鸭”这8个词。然后进行迭代计算,新扩充后的传统词和原有剩余的新词计算出共现概率值和新词情感概率。新词情感概率阈值依旧为0.6,第二次把“大猪蹄子”加入情感词典。扩充后的传统词为“喜悦”、“保佑”、“通情达理”、“忏悔”、“害怕”、“心烦意乱”、“锦鲤”、“冲鸭”和“大猪蹄子”这9个词。而且“大猪蹄子”的新情感词情感倾向为负,“大猪蹄子”为消极情感词。

(ⅲ)第三次迭代

根据第二次共现概率的计算,扩充1个新词到情感词典,然后再次迭代计算,新扩充的传统词和原有剩余的新词计算出共现概率值和新词情感概率值。扩充实验结果如表2。

表1 新词情感概率表

表2 情感词典扩充数据表

给定阈值0.6不变,计算共现概率,由表2得出,扩充完的情感词典有“喜悦”、“保佑”、“通情达理”、“忏悔”、“害怕”、“心烦意乱”、“锦鲤”、“冲鸭”和“大猪蹄子”这9个词。第三次迭代没有新词加入情感词典,传统词依旧是第二次实验数据,迭代结束,扩充情感词典终止。

3.3 对比实验

为了验证本算法的有效性、优越性,因此将本文算法和传统算法作出比较本文算法的准确率和召回率明显大于传统算法的准确率和召回率。本文算法F值=0.869 9传统算法F=0.705 1本文算法明显优于传统算法。

表3 算法对比结果

实验表明本文算法明显优于传统算法。通过准确率、召回率、F值对本文提出的基于共现概率训练的情感词典扩充算法进行比较,有着明显的优势。本文改进了扩充情感词典的算法,准确率从0.75提高到0.86,显示出传统算法扩充构建起来虽然比较简单容易实现且分类速度快,但是分类准确度低不精确。召回率从0.66提高到0.88,F值从0.71提高到0.87,这表明本文算法模型具有较好的强健性。一般认为,正确率达80%以上的模型具有一定的生产价值,本文模型已经初步达到了这个标准,能适用于商业生产环境,为了下一步文本情感分类带来了高效性和准确性。

4 小结

本文对近些年得到广泛应用的微博进行了一系列的研究,结合微博数据自身特点提出了基于共现概率的情感词典的规则方法对情感词典的扩充。结果表明本文算法情感词典扩充优于传统的无监督学习的词频统计扩充。

猜你喜欢
新词锦鲤词典
每到冬天,东北就变成了“冻”北
90后、00后行为观察大赏
有趣的锦鲤
米兰·昆德拉的A-Z词典(节选)
米沃什词典
小编,来条“锦鲤”
《微群新词》选刊之十四
Research on Micro-blog New Word Recognition Based on SVM
漫画词典
小议网络新词“周边”