樊康新
摘要:网络文本的情感倾向性分析对于电子商务、网络信息安全、网络舆情等方面具有非常重要的意义。本文在对文本倾向性分析的常用方法作了分析和研究的基础上,提出了一种综合情感词语、否定词、程度副词、关联词和词句类型等多种特征计算词句的极性值,进而判别文本情感倾向性的方法。实验结果表明,与ku提出的算法相比,该方法更能有效地判定文本情感倾向性。
关键词:情感词典;情感特征;网络文本;文本倾向性;倾向性分析
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)22-0018-04
Abstract: The analysis of the sentiment orientation of the network text is very important for the electronic commerce, the network information security, the network public opinion and so on. In this paper, the general method of text orientation analysis is studied. We propose a new method to calculate the polarity value of the words and to judge the sentiment orientation of text, which comprehensives a variety of characteristics, such as the emotional words, negative words, adverbs of degree, related words, and so on. The experimental results show that the proposed method is more effective than the Ku algorithm for judging sentiment orientation.
Key words: sentiment lexicon; sentiment feature; network text; text orientation; orientation analysis
随着互联网的飞速发展以及网络信息交流的便捷性和信息传播的迅速性,使得越来越多的人使用网络作为信息交流的平台,发表自己的意见和观点。由此产生了大量带有个人主观情感色彩的在线文本,如个人博客、产品评论、新闻评论等。在这些浩如烟海的大量文本中,大多数都带有作者对人、事、物的观点和态度。提取这些反映着网民真实观点和态度的情感信息,对于电子商务、网络信息安全、网络舆情等方面具有非常重要的意义。
网络文本倾向性分析是指通过采集、组织和分析这些网络文本中的立场、观点、看法、态度、情绪等主观信息,从而对文本的情感倾向性做出正负褒贬的判断。目前,这一技术已成为信息处理领域的一个研究热点,已被广泛应用在信息检索、信息过滤、信息安全、自动文摘等多个方面。
1相关研究
文本情感分析可以分为基于机器学习的情感分类方法和基于语义理解的情感分析方法两大类。
基于机器学习的情感分类方法利用训练语料对分类器进行训练,然后将测试语料用已训练好的分类器进行分类测试,得到文本的情感倾向性。例如,Pang等[1]运用朴素贝叶斯网络、最大熵模型和支持向量机三种分类器对于影评进行了分类研究;李素科等[2]针对监督学习分类的不足之处,对情感特征进行聚类,并提出了一种半监督式的情感分析算法。
基于语义理解的情感分析又可以分为两类:基于情感词的倾向性分析方法和基于语义规则的倾向性分析方法。基于情感词的倾向性分析首先抽取出文本中的情感词,然后对情感词逐一进行情感倾向判断,得到各自的情感倾向值,最后通过累加这些倾向值获得文本最终的情感倾向和强度。例如,徐琳宏等[3]采用HowNet作为基准词,并在实验中考虑否定词和程度副词的影响,计算待测词与关联度确定语义倾向,对电影评论进行了倾向性识别研究。基于语义规则的倾向性分析首先建立一个情感倾向语义模式库,然后将文本按照这个语义模式库进行模式匹配,计算得到一系列情感倾向值,最后将这些倾向值进行累加,得到整个文本的情感倾向和强度。例如,Ku等[4]对新闻和博客文本从词级、句子级和文档级进行了意见抽取,得出观点摘要,进而对文本进行情感倾向和强度分析。
对上述几种文本倾向性分析的常用方法进行深入的分析和研究后发现,许多方法只是片面地进行文本倾向性的判定,其准确性和有效性得不到保证。本文在精心构建基础情感词典和网络情感词典的基础上,根据网络文本的组成特点,综合利用情感词语、否定词、程度副词、关联词和词句类型等多种特征计算词句的情感极性值,据此判别文本情感倾向性。实验结果表明,该方法提高了网络文本倾向性判别的准确性。
2情感资源的构建
2.1基础情感词典
目前关于中文情感词汇方面的资源较少,基本采用人工的方法获取。本文以HowNet发布的“情感分析用词语集”[5]为基础,构建网络文本倾向性分析的基础情感词典。该词语集共包含中文情感分析用词语集和英文情感分析用词语集两个部分,一共包含词语17887个。该词语集最大的特点在于作者已经根据词语情感倾向将其分成了六类,分别为“正面评价”词语、“负面评价”词语、“正面情感”词语、“负面情感”词语、“主张词语”以及“程度级别”词语。由于网络文本是互联网的产物,其文本信息表达多元化,表现形式常常是消息发布、商品评价、话题讨论、情感宣泄等,故本文选用HowNet“情感分析用词语集”中的前四类,即正、负面情感词语与正、负面评价词语。通过人工挑选,去掉一些不太常用以及情感倾向不明显的词语,得到7156个情感词作为本文的基础情感词典。
2.2网络情感词典
随着互联网日益广泛的使用,出现了许多网络用语。这些网络上的非正式语言跟传统词语有着很大区别,它们往往具有强烈的感情色彩。有的是过去已经存在的词语,因为某个事件或某些热门话题而演变成了带有感情色彩的词语。比如:“神马、小强、宝马女、奇葩、……”。有的则是过去不存在,新出现的网络词语,大多为谐音、错别字改成、字母缩写、也有象形字词等。比如:“木有(没有)、稀饭(喜欢)、JJWW(唧唧歪歪)、SP(support)、3Q(Thank you)、7456(气死我了)、弓虽、……”。这些词语在已有情感词典中是不存在的,但在文本情感倾向判别过程中却有着十分重要的作用。
网络情感词的收集是一个漫长的过程,目前还没有现成的情感词典可用,因此只有通过社交网络、BBS、博客、评论、微博等,收集并标注具有感情色彩的词语加入网络情感词典之中。本文收集筛选了75个网络常用词语组成情感倾向分析的网络情感词典。
2.3否定词和程度副词词典
在进行情感分类时,仅考虑情感词语往往不足以支持文本情感倾向的准确判别[3]。例如,“不漂亮”和“非常漂亮”,其中的情感词“漂亮”本来是褒义词,但是由于否定副词“不”和程度副词“非常”的出现,整个句子的语义在不同程度上都有所改变。因此,副词的出现对句子的倾向性起到加强、减弱甚至逆转的作用。由此可见,除了构建基础情感词典和网络情感词典外,还需要构建否定词词典和程度副词词典。
本文从HowNet中抽取如“不、并非、不再、不曾、从不、毫不、毫无、绝非、没、没有、未、尚未、未必、未尝、未曾、不大、不太、不很”等的36个否定词作为本文的否定词词典。
程度副词词典则根据每个程度副词的表达程度不同,为程度副词定义不同的强度值。本文选取了如“最、最为、极、极为、极其、过于、分外、很、非常、特别、十分、甚为、异常、深为、多么、尤其、无比、尤为、不甚、不胜、颇为、大、大为、稍微、稍许、略微、较、比较、较为、有点、有些”等76个程度副词,将其划分为7个级别,分别赋予不同的强度,其值从1.6到0.7不等。
3网络文本的情感倾向性判别
根据已建立的情感词典、程度副词词典和否定副词词典,能够快速地计算出词语的倾向性,从而可以计算出各句子和整个文本的情感倾向性。
3.1词语的情感倾向性计算
基于HowNet的语义相似度的方法反映的是词语语义的相似程度。刘群等[6]提出了计算词语语义相似度的方法,因此本文利用词语的语义相似度概念来计算词语的情感值。
词语的情感倾向值由该词与种子词的语义关联的紧密程度有关,这里的种子词是指褒贬态度非常明显、强烈,具有代表性的词语。与褒义种子词联系越紧密,则词语的褒义倾向越强烈;与贬义种子词联系越紧密,则词语贬义倾向越明显[7]。本文从HowNet中人工挑选出若干个褒贬种子词,组成褒贬基准词集合P和N。利用式(1)计算词语w的情感值。
3.2句子的情感倾向性识别
根据句子的组成特点,将句子的情感倾向性分为单句和复句两类分别处理。这里,单句是指只具有主语和谓语的句子以及短语;复句是指具有连词连接的句子,或虽没有连词连接但至少有两个或两个以上的分句构成的句子。
3.2.1单句的情感倾向性
句子的情感倾向性不仅取决于句子中情感词的褒贬倾向,而且还与修饰情感词的程度副词和否定词有着密切联系。因此,对于单句,本文根据句子中情感词、程度副词和否定词等特征计算句子的情感倾向值。
3.3网络文本的情感倾向性判别
文本倾向性计算以句子为单位。首先根据对情感倾向性影响的重要程度确定文本中各句子的权重,然后对文本进行情感倾向计算,并最终由计算结果和区间阈值判别文本的正负褒贬倾向性。
4实验结果与分析
本文实验采用的语料为淘宝网买家购物评论文档。从淘宝网众多买家对多种商品的评价中搜集整理评论文本,对所有评论文本逐一检查,去掉语言不规范的文本。随机选择2000篇文本作为本实验的数据集,对这些文本进行人工褒贬倾向性判定,确定978篇为褒义(正面评价)文档,935篇为贬义(负面评价)文档,另有87篇为中性文档。
从表2可以看出,本文方法在准确率、召回率和F1值三项指标方面,相对于Ku算法,正面文本的判别分别提高了13.04%、15.43%和14.23%;负面文本的判别分别提高了19.26%、21.90%和20.64%;中性文本的判别分别提高了19.15%、18.67%和18.91%。实验结果表明本文方法与Ku算法相比,较大幅度地提高了文本情感倾向性判别的精度。之所以如此,是因为Ku 算法在句子情感倾向计算时只对情感词语统计计算或仅考虑否定副词的修饰作用,并没有如本文方法那样,还对文本中的程度副词、复句关联词、句子类型及标点符号等可能对文本的倾向性产生重要影响的多种特征进行更深入的剖析。从表2还可以看出,本文方法的准确率和召回率均已达到80%以上,可以对网络文本的情感倾向性作出有效的判断。
5结束语
本文对情感词典的建立和情感词句极性的计算方法进行了研究,充分考虑了程度副词、否定副词对句子情感倾向判别的作用;区别不同复句类型,对各分句情感极性加权累加,使得句子的倾向性计算更加合理;通过对具有明显情感倾向特征的句子(如首尾句、感叹句、反问句等)的重点处理,提高了文本倾向性计算的准确性。实验结果表明,本文方法对网络文本情感倾向性的判别已达到了较为理想的效果。下一步的工作将继续丰富完善情感资源,并在本文方法的基础上融入浅层句法分析,从句法结构方面分析网络文本的情感倾向性。
参考文献:
[1] Pang B,Lee L,Vaithyanathan S.Thumbs up? Sentiment classification using machine learning techniques[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).USA Philadelphia:2002:79-86.
[2] 李素科,蒋严冰.基于情感特征聚类的半监督情感分类[J].计算机研究与发展,2013,50( 12):2070-2577.
[3] 徐琳宏,林鸿飞,杨志豪,等.基于语义理解的文本倾向性识别机制[J].中文信息学报,2007,21(1):96-100.
[4] Ku Lun-Wei, Liang Yu-Ting, Chen Hsin-His. Opinion extraction,summarization and tracking in news and blog corpora[C]//Proceedings of the 2006 AAAI Symposium on Computational Approaches to Analyzing Weblogs.Menlo Park:AAAI Press, 2006:100-107.
[5] 董振东.HowNet[EB/OL].[2015-07-26]http: / /www.keenage.com.
[6] 刘群,李素建.基于《知网》的词汇语义相似度计算[J].计算机语言学与中文信息处理, 2007,31(7):59-76.
[7] 朱嫣岚,闵锦, 周雅倩, 等.基于HowNet的词汇语义倾向计算[J].中文信息学报, 2006,20(1):14-20.