文本观点挖掘和情感分析的研究

2016-04-14 13:51涂慧明

电脑知识与技术 2016年5期

涂慧明

摘要：观点挖掘和情感分析是分析用户观点，反馈，情感，评估，态度和个人情感的一个研究领域。这是自然语言处理中最活跃的一个研究领域，在数据挖掘，Web挖掘和文本挖掘领域中同样也被广泛研究。随着社交媒体、Web2.0技术（如新闻、论坛、博客、微博和社交网络）的发展，情感分析的重要性相应增长。首次在人类历史上，我们有了大量的数字形式的观点意见需要进行分析。在本文中，我们对文本观点挖掘、情感分析以及相关技术进行了研究。

关键词：观点抽取；观点挖掘；情感分析；文本挖掘

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）05-0235-03

Abstract： Opinion mining and sentiment analysis is the field to analyzes the user point of view， feedback， emotion， sentiment， evaluations， attitudes， and emotions. This is one of the most active research areas in Natural Language Processing. Data mining， web mining and text mining have also been widely studied. With the development of social media， Web2.0 Technology （such as news， forum， blog， micro-blog and social network）， the importance of sentiment analysis growth. For the first time in human history， we have to analyze a large number of opinions in digital form. In this paper， we research on text opinion mining， sentiment analysis and related technology.

Key words： Opinion extraction； Opinion mining；Sentiment analysis；Text mining

1 概述

在过去的十五年里，作为情感计算和自然语言处理（NLP）的子任务，关于主观性和情感分析（SSA）的自动化处理研究已经有了蓬勃的发展。社交网络的诞生并飞速发展使得在世界各地的人们可以随时分享、评论或讨论任何话题成为了可能。在这种情况下，社会媒体文本中表达的意见、情绪和情感已被证明是有一个对全球社会和经济具有较高影响力的行为。SSA系统对许多现实世界的应用高度相关（如市场营销，电子管理，商业智能，社会分析），并在自然语言处理（NLP）的许多领域，例如信息抽取、问答、文本含义等。近十年来，已经有大量的相关研究方法和成果，以及由这项技术创建的应用，这些都足以证明这一领域的重要性。尽管已经有大量的资源和方法去处理情感分析[1]，但SSA依然是一个亟待解决的问题。

2 情感分析研究的难点

情感分析文本可以看作是积极的，消极的或者其他客观的分类，因此它能够作为文本分类任务。由于文本有很多不同主题，因此它也可以被分为多种种类，但是情感分析只有三种分类。然而，有很多因素使得情感分析比传统的文本分类要难的多。

1）域依赖：观点挖掘和情感分析[2]面临的最大的挑战是情感词的从属域的性质。一个特征集可能在一个领域会有很好的性能，同时它在其他一些领域性能又非常差。

2）限制分类过滤：在决定最受欢迎的想法或概念时，分类过滤中有一个限制。为了得到更好的情感分类结果这个限制应该减少。这存在过滤器给无关的意见的风险并且它能够导致情感分类的判断错误。

3）观点挖掘软件可用性不对称：观点挖掘软件非常昂贵，并且当前只有大型企业和政府能够负担得起。它超出了普遍公民的预期，这本应该是所有小到中型企业都可以承受的价格，这样才能让每个人都能从中受益。

4）合并隐式观点和行为数据：对于成功的情感分析，观点词应该和隐式数据结合。隐式数据决定情感词的真实行为。

5）自然语言处理限制：自然语言处理技术在处理一些模棱两可的句子时结果往往不准确。这些也给情感分析造成阻碍。

3 情感分析技术研究

3.1 文章级别的情感分类

这种方法将整个文档作为一个单一的实体，将情感分为积极或消极的或中性的。文章级别的情感分类[3]假定文章对单一目标表达一个单一的情感，这个情感归属于某个人或某个产品或某个服务。很显然，这种假设在一个产品说明文档中才成立。但是在论坛或者博客等中，对比的语句就会出现，评论者对比两个产品有类似的特征。因此，文章级别的情感分析在论坛和博客中是不可取的。

文章级别的情感分类主要有两种分类技术：有监督学习和无监督学习。

3.1.1 有监督学习方法

情感分类作业可以被配置为有两个类别的有监督学习，积极的类别和消极的类别。产品评论大多被用作训练和测试数据。分别对每一条评论进行1至5分的评分，评分决定了他们是积极的类别还是消极的类别。例如，4分或者5分的评价就认定为一个积极的评价，1分或2分就认定为一个消极的评价。大多数研究论文为了简便没有使用中性分类，我们把3分的评价认定为一个中性的评价。

现有的一些有监督学习技术都可以用于情感分类，例如朴素贝叶斯和支持向量机（SVM）。在大多数情况下，支持向量机比朴素贝叶斯分类器有更好的边际改善。当训练数据集很小，朴素贝叶斯分类可能更合适，因为支持向量机需要大量的数据集才能建立高可靠的分类器。研究人员在机器学习中使用了许多技术和特征，在情感分类中最重要的步骤是选择一个适当的特征集，情感分类中最常用的特征有：

1）术语及其频率：单个的词被称为一元模型以及包含相应词频的多元模型。这些特征已经被证明对情感分类非常有效。

2）词性（POS）：POS信息是情绪表达的一个非常重要的指标。例如形容词包含大量关于文章情感的信息。

3）情感词和短语：情感词和短语表达积极或消极的情感。例如优秀的、聪明的、出色的是积极情感词汇，糟糕的、枯燥的、不好的是消极情感词汇。虽然大多数情感词汇都是形容词或副词，但名词和动词同样也可以表达观点。例如在一些文章中垃圾、喜欢、讨厌等都可以表达观点。

4）否定词：显然，否定词是评价一个句子的极性非常重要，因为他们可以改变情感倾向。例如，“我不喜欢这辆车”就有消极的意思。

在此方法研究中，本文使用了三种机器学习技术，朴素贝叶斯、最大熵分类和SVM技术对影评文章进行分类。测试了多种特征（一元模型、二元模型、POS、词语的位置）去寻找最优特征集。结果表明，在SVM分类器中使用一元模型性能达到最佳。

有监督学习最大的限制在于训练数据的质量和数量，当训练数据存在偏颇或不充分结果可能会失败。基于有监督学习的子文档的情感分类难度更大，因为可用的信息量比较少。

3.1.2 无监督学习方法

显然，情感词和短语是情感分类的主要指标。一些研究已经实现了利用这些情感词和短语的无监督学习方法的情感分类。文章[4]提出了一个简单无监督学习算法对评论进行分类，通过计算词语的评分来判断词语是积极的还是消极的以及情感强度。这种方法扫描整个短文匹配POS模式，计算出这些短语的情感倾向，然后统计所有短语从而得出整体的倾向。

总之，文章级别的情感分类最大的好处在于提取一个主题或事件的主要观点。不过，他并不能提供人们的详细情感。

3.2 句子级别的情感分类

在这种方法中，每个句子的极性被确定。这种方法假设每个句子是由一个人写的，并表示一个单一的正面或负面的情绪。这种方法主要分为两个步骤。第一，判断哪些句子具有主观意见。第二，对每个句子进行分类，判断是积极的还是消极的。

这种方法存在的困难在于，一些客观语句隐含了情感，一些主题语句却不包含情感，或者一句话包含多种情感。

3.2.1 情感词库构建

情感词在许多情感分类任务中使用。根据他们的倾向，情感词通常被分为两类，积极的和消极的。构建情感词库主要有三种方法：手动构建、基于语料库[5]的构建方法和基于字典的构建方法。手动构建方法难度较大，并且耗时比较长，常常与其他两种方法结合起来使用。

3.2.2 基于语料库的方法

使用一个已知极性的情感词种子集合，利用语法模式或共生模式，以推断一个新的更大的情感词库。基于语料库的方法可以产生一个精度相对较高的语料库。大多数这些方法需要非常大的已标记的训练数据，以实现其完整的功能。

3.2.3 基于字典的方法

基于字典的方法，情感词汇建设不需要大型语料库或搜索引擎具有特殊功能。相反，可以利用可用资源WordNet词典。这个方法的主要策略是收集情感词汇的初始种子集，然后在字典中寻找近义词和反义词来扩展种子集，这个新的种子集再用来迭代生成新的种子集合。基于字典的方法主要缺点是在特殊领域很难找到相应的情感词汇，同一个情感词在某个领域可能表达积极情感，在另一个领域则表达消极情感。

4 情感分类评估

准确度是所有正确预测的实例和所有实例的比值，准确度为100%表示全部预测正确。精度是正确预测的积极实例和所有预测的积极实例的比值。命中率是正确预测的积极实例和所有积极实例的比值。最终得分是精度和命中率的调和平均数。

5 结语

本文对不同级别（如文章级别、句子级别）的情感分类问题进行了研究，并对现有的一些方法和技术做了分析和总结。目前一些观点挖掘技术已经被用于解决这类实际问题。例如，观点挖掘能够帮助企业了解用户对于他们产品的看法。公司可以基于用户对产品的反馈信息做决策。公司也能够修改他们产品的特性并且根据用户意见以更好更快的方式引出新的产品。公司通过更加准确提供用户想要的，而不是公司想出售的，以此提高用户体验。帮助公司发现，吸引和留住顾客，节省生产成本。

在今后的工作中，更多的研究将集中在改善方法和性能指标。

参考文献：

[1] 周立柱，贺宇凯，王建勇.情感分析研究综述[J]. 计算机应用，2008，28（11）：2725-2728.

[2] 杨卉. Web文本观点挖掘及隐含情感倾向的研究[D]. 吉林大学， 2011.

[3] 张冬梅. 文本情感分类及观点摘要关键问题研究[D]. 山东大学， 2012.

[4] P. D. Turney， "Thumbs up or thumbs down： semantic orientation applied to unsupervised classification of re-views，" presented at the Proceedings of the 40th Annual Meeting on Association for Computational Linguistics， Philadelphia， Pennsylvania， 2002.

[5] 万源. 基于语义统计分析的网络舆情挖掘技术研究[D]. 武汉理工大学， 2012.