一种改进的情感倾向判别算法

2019-05-29 14:39郭汝静南京工业大学浦江学院南京0000安阳工学院河南安阳455000

安阳工学院学报 2019年2期

吴菲，郭汝静（.南京工业大学浦江学院，南京0000；.安阳工学院，河南安阳455000）

0 引言

随着“互联网+”时代的到来，人们可以利用微博、微信等社交平台发布评论、商品信息，实现快速、及时的沟通交流。然而这些信息具有很强的随意性，内容发散，短小，话题广泛，而且还包含了大量无用的信息。这些评论无论对于政府部分的舆情分析，还是企业的商业活动，都有着重大的分析价值。因此，提取评论信息中的有效内容就显得十分必要。

目前对于互联网评论的研究还处于起步阶段，针对这一现状，本文参考了现有关于中文文本分析的相关文献和研究成果，对现有的特征值提取值算法和权重计算算法进行改进，提高分类精度。

1 相关工作

目前，互联网评论的情感倾向性分析是一个热门的研究领域。机器学习是这一领域目前国内热门研究方向，刘志明等[1]研究了SVM等三种机器学习算法，并且对不同的特征提取方法进行了深入的研究，从而选取了信息增益方式，验证了评论的适用性与评论的风格和主题内容相依赖。李泽魁[2]将目前情感分析方面已有的研究成果做出了一个全面的综述，得出了一些比较有利的特征组合，这些研究内容可以为后续研究提供一个非常好的研究基础与理论假设。

本文针对不同类型的评论进行分类，以主观评论的情感倾向作为重点研究内容。首先过滤掉垃圾评论，提取主观评论。然后通过改进的特征组合提取算法IG-S以及TF-IDF-S来构建向量空间，提高分类精度。

2 文本表示方法

目前，向量空间模型方法（VSM）是最广泛的文本表示方法。该模型的基本思想是将文本字符串表示成空间中的多维向量，并以词或者词频等特征项作为向量空间中的一个维度，而每一个维的值对应的是特征项在文本中的权重。向量空间模型就可以表示为特征向量，表示为V(d)=[(t1,w1),(t2,w2),…(tn,wn)]，其中ti(i=1,2,3,…,n)为文档中特征项wi为ti的权重。

3 特征提取方法

在复杂的互联网评论中包含了大量的不同特征，这些特征之间会相互影响，因此提取特征值是情感分类中的一个重要步骤[3]。在这些特征中，大多数的特征只是无用特征，只有小比例的特征对分类结果有很明显的影响。通常采用的特征提取方法有信息增益(IG)、互信息(MI)、卡方统计(CHI)特征提取方法等[4][5]。

传统IG的算法如下：

公式（1）中m表示所有的评论类别。P(c)表示特征c在数据集中出现的概率。P()表示特征c不在数据集中出现的概率。P(gi)表示数据集中类型gi出现的概率。P(gi|c)表示数据集包含特征c，且同时又是类型gi的概率。P(gi)表示数据集中不包含特征c，但为类型gi的概率。由于传统的IG算法无法对情感词进行准确进行辨别，虽然在实际中可以识别出一部分特征，但是在效果上仍然不理想。针对于情感分析这个领域的研究应用，通常认为对于评论极性判断最有效的方法是使用情感词，所以在特征词的提取中非常有必要加入相关的挑选比例，以此来提高情感分析的准确性。本文将以上IG算法进行改进，得到新的算法公式IG-S，如公式（2）所示

公式（2）中n为情感词集合。IG(c)表示特征c的IG值，表示没有表达情感的特征IG的平均值，并且通过α来调控挑选的情感词。与公式（1）相比，公式（2）加大了情感词的权重，而对于非情感词本文作者认为不需要增加其权重，这样也可以把出现频率较高并且带有明显情感倾向的词语挑选出来。通过改进的特征值提取方法计算出每个特征词的IG值之后，将其根据值的大小进行从大到小排序，最后选取分数最高的若干词组成特征词集，得到所需内容。

4 权重计算

传统的TF-IDF方法存在着一些缺陷。首先，它无法区分情感词和普通词，而情感词和普通词在区分情感所属类别的能力上有着明显的差异，并且没有考虑情感词所处的相关位置因素，比如程度副词之后是带有明显情感倾向的情感词，那么就应该提高情感词的权重。其次，该方法过高地估计了一些无用词的贡献度，从而造成不同类别之间的特征表示能力的减弱。针对这些不足，本研究改进特征权重的计算方式，提出了改进的TF-IDF-S方法，算法公式如下：

公式（3）中Q代表情感词词典，T代表程度副词词典，Si-1表示特征i前一个词的内容，gni,j表示在一个评论句子中情感词后面紧接着程度副词，则将情感词的权重加大为1.2倍，否则保持原有的权值不变。P(nk|ci)表示在类别ci中含有特征i的概率，ni,j表示在类别ci中包含特征i的总数。P(nk)͂表示不在类ci中特征i出现的概率。采用公式（3）的方法既可以将情感词区分出来，还能起到减弱稀疏特征的作用。

5 实验结果与分析

本文设计了改进的特征值提取方法和权值计算方法，以此来提高情感倾向性判断的准确率。为了验证算法的有效性，作者进行了实验验证。本文选择了几组有效的特征组合来验证改进的算法，并将单一的分类算法作为参照实验，实验结果表明本文提出的方法在分类精度上较传统方法有了一定的提高。

5.1 实验数据

本文实验数据采用通过爬虫技术从互联网评论中爬取得到的有关社会舆论的评论，在筛选直观垃圾评论之后，形成3个话题的测试数据集。数据集1的测试集和训练集比较相近，数据集2的测试集和训练集相似度比较小，数据集3的测试集和训练集出于同一个数据源。具体内容如表1所示。

表1 数据集示例

5.2 改进的特征值算法和权重计算方法的试验结果

本实验采取四组实验，第一组是实验室传统的IG和TF-IDF方法，第二组使用的是改进的IG方法，第三组使用的是改进的TF-IDF方法，第四组使用的是改进的IG和TF-IDF方法。几组实验使用相同的特征值组合，实验数据为第一个数据集。将该数据集分为6个标签，分别为POT_P、POT_R、POT_F、NET_P、NET_R、NET_F。四种方法在不同标签集上的实验结果如表2所示。

从表2的实验结果来看，改进的IG和TF-IDF方法对分类效果都有所改进，这说明本文使用的方法更有效。

使用本文的方法在三组不同的测试集上进行实验，结果如表3所示。

表2 不同方法的比较结果

表3 不同数据集比较结果

从表3的实验结果可以看出，测试集1和测试集2的各类指标有很大的区别。测试集1的数据和训练集比较相近，测试集2的数据和训练集相似度较小，所以测试集1的分类效果较好。测试集3和训练集出于同一数据源，其结果比前两个测试集好。可见同一数据源的测试集和训练集能取得较好的分类结果。

6 总结与展望

本文采用改进的IG算法和TF-IDF算法来提取特征值，在情感分析中能够更好地挑选出情感词，并且对情感词加大权重之后加入到向量空间中去。通过实验表明，两种改进算法的结合能够取得很好的效果。

本文所使用的是有监督的机器学习方式，对于相似度较大的训练集可以取得较好的效果。在不同的训练集上的效果并不是特别理想。怎样在不同训练集上取得较好的效果，这个问题有待进一步研究。