基于word2vec和自训练的无监督情感分类方法

2019-06-11 08:26陶娅芝

科技风 2019年12期

摘要：针对现有情感分类算法中存在的问题，本文提出了一种基于word2vec和自训练的无监督情感分类方法。该方法首先利用word2vec和词性标签构建领域情感词典，并在此基础上融合否定词和程度副词来计算评论的情感倾向值；其次，选取情感倾向强烈的评论作为已标注训练集，剩余部分作为待分类数据集；最后，采用机器学习方法生成分类器进行自训练学习，直到迭代结束。采用手机评论作为实验数据，结果证实了该方法的有效性。

关键词：情感分析；自训练；word2vec；机器学习

在大数据时代，各大电商网站以及论坛涌现出大量带情感的商品评论。近几年，人们愈发地意识到对商品评论进行深度地分析和挖掘能够获取较大的价值。对于消费者而言，他们可以从中了解到特定商品的性能及其质量能否满足自我需要，从而决定是否进行购买；对于商家而言，他们可以从商品评论中获取用户对该产品的关注点及其感情色彩，并用于改进产品质量和提升产品競争力。然而产品评论具有及时性，数量大，非结构化以及内容复杂等特点，利用人工阅读的方式无法获取完整及正确的信息。因此，迫切需要利用计算机技术来自动地实现用户评论情感分类。

1 研究现状

目前，对于情感分类的研究主要集中在有监督、无监督和半监督方法上。无监督分类方法主要是利用已有的情感词典或者固定句法模式来判断评论的情感倾向。Turney等人[1]利用词语的词性标签来抽取出可能含有观点的固定句法模式，并利用这些模式来解决情感倾向判断问题。Ohaha等人[2]利用SentiWordNet情感词典来识别用户评论中的情感倾向。黄仁等人[3]利用google的开源工具word2vec来计算词语之间的语义相似度从而构建出情感词典，并对测试语料进行分类，实验结果证实了该算法的可行性。虽然无监督的方法便于实现且具有较好的移植性，但是其准确率却有待提升。

有监督分类方法主要是利用训练样本来生成分类器，从而对待分类评论进行分类。为了便于处理通常先采用向量空间模型将评论文本表示成向量，随后采用分类算法训练出分类模型，并利用分类模型将评论分为褒贬义两类。Pang等人[4]将影评作为实验语料，采用传统的机器学习方法识别其情感色彩。通过选取不同的词语作为特征项，采用不同的分类算法来进行多次实验，证明了该方法的有效性。徐琳宏等人[5]将情感倾向较强烈的词语作为特征项，支持向量机作为分类器来对文本进行识别。虽然有监督的方法准确性较高，但是存在大量样本数据难以获取，训练出的分类模型难以直接应用于其他领域等问题。

因此，现目前越来越多的研究者转向利用半监督的方法来解决情感分析问题。半监督方法是利用大量未标记样本和少量已标记样本数据来实现。Shoushan Li等人[6]针对非平衡情感分析问题提出了一种基于协同训练的半监督算法。

本文提出一种基于word2vec和自训练的无监督情感分类方法。该算法首先利用Word2vec和词性标签来构建出本领域的情感词典；随后利用领域词典对计算出每条评论的情感倾向值，并以此为依据抽取出部分情感倾向程度强烈的评论作为已标注训练集；最后选取支持向量机作为分类算法进行自训练学习从而识别出评论的情感倾向。

2 算法框架

该算法框架主要分为两个部分：一是基于Word2vec和词性标签的情感倾向值计算；二是自训练学习。

2.1 情感倾向值计算

利用Word2vec和词性抽取出具有情感色彩的词语，并采用Xsimilarity工具包对其进行褒贬义分类从而构建出领域情感词典，随后结合评论中的否定词和程度副词来进行评论的情感倾向值计算。具体步骤如下：

（1）利用Ansj分词工具对评论语料进行分词和词性标注，抽取出词性标签为/an和/a的词语。并利用Xsimilarity工具包计算每个词语的情感倾向值，将情感倾向值大于0的归为褒义词，情感倾向值小于0的归为贬义词。从而得到褒义词集合和贬义词集合。

（2）利用Google的开源工具word2vec对语料进行训练，获取词向量集合。遍历词向量集合，判断词语word是否存在于步骤（1）得到的集合中，若存在，则不进行处理；不存在，则计算词语与词向量集合中其他词语的相似度，找出相似度大于阈值的词语sim_word，并查看该词语是否存在于步骤（1）得到的集合中，若存在，则将word标记为与sim_word相同的倾向，并加入相应的集合中，从而构建出最终的领域情感词典。

（3）构建常用的否定词词表以及程度副词词表。对程度副词词表按照其强烈程度分为四个等级，并赋予相应的权重，从高到低权值依次为3.0、2.0、1.2、0.5。

（4）对评论中的每个词语进行分析和计算。若存在于领域词典中的褒义词集合，则该词语的情感倾向值设为1；若存在于贬义词集合，则为-1。若该词语前2个词语中存在有否定词则将其情感倾向值取反，反之不变。若该词语去前后两个词语中存在程度副词，则将其情感倾向值乘以该程度副词对应的权值。

（5）将评论中每个词语的情感倾向值相加求和则得到该条评论最终的情感倾向值。情感倾向值大于0则说明该条评论为褒义；反之小于0则说明该条评论为贬义。

2.2 自训练学习

选取部分情感倾向程度强烈的褒贬义评论作为训练数据，采用机器学习方法生成分类器，进行自训练学习，直到得到剩余所有评论的褒贬义分类结果。具体步骤如下：

（1）评论的情感倾向值的绝对值代表了其情感强烈程度，绝对值越大说明情感越强烈。因此，按照情感倾向值的绝对值分别对褒贬义句子进行降序排序，选取前N条褒义评论和前N条贬义评论结合在一起作为已标注的训练数据，剩余的评论作为待分类评论。本实验中N为600。

（2）将Unigram作为分类特征，TF-IDF（Term Frequency-Inverse Document Frequency）作为特征项权重，支持向量机为分类算法对上述步骤中得到的已标注的训练集合进行训练并生成分类器。随后利用该分类器对待分类评论进行处理，得到分类结果及其分类置信度。

（3）若已标注的训练评论数为待分类的评论数的9倍以下，则按分类置信度分别对褒义和贬义结果进行降序排序，分别选取前M条褒义评论和前M条贬义评论用于扩展已标注训练集，同时将其从待分类评论中剔除，随后转入上述步骤（2）；反之则迭代停止，并直接将分类结果作为最终结果。本实验中将M设为待分类评论数量的5%。

3 实验结果与分析

本文采用从网络下载的某手机评论作为实验数据，选取评论挖掘领域常用的查准率、查全率和整体准确值作为算法评估指标。对本文提出的基于word2vec和自训练的无监督情感分类算法进行实验，其中褒义评论的查准率为70.00%、查全率76.30%；贬义句子的查准率72.69%、查全率65.88%；算法的整体准确率71.20%。采用相同的语料，用王永等人[7]的方法进行实验，褒义评论的查准率为72.03%、查全率55.74%；贬义句子的查准率62.61%、查全率77.40%；算法的整体准确率66.33%。通过对比可以发现，本文算法整体上具有更好的性能。

4 结语

针对中文领域的用户评论情感分析问题，本文提出了一种基于word2vec和自训练的无监督情感分类方法。该方法首先利用word2vec工具和词性标签的无监督方法計算评论的情感倾向值，并抽取部分评论作为已标注数据集，随后在此基础上训练出分类器并进行自训练学习直到迭代结束。本文提出的算法能够避免去获取大量的已标注训练集，且实验结果对比证明了该算法的有效性。该研究有助于丰富评论挖掘领域的研究成果，且为后续研究奠定一定的基础。

参考文献：

[1]Turney P D.Thumbs up or thumbs down？：semantic orientation applied to unsupervised classification of reviews[C].Meeting on Association for Computational Linguistics.2002.

[2]Bruno Ohana，Brendan Tierney，Sentiment Classification of Reviews Using SentiWordNet[C].9th.IT & T Conference，2009.

[3]黄仁，张卫.基于word2vec的互联网商品评论情感倾向研究[J].计算机科学，2016，43（s1）：387-389.

[4]Pang B，Lee L，Vaithyanathan S.Thumbs up？ Sentiment classification using machine learning techniques[C].Proceedings of ACL-02 Conference on Empirical Methods in Natural Language Processing.Stroudsburg，PA，USA：Association for Computational Linguistics，2002：79-86.

[5]徐琳宏，林鸿飞，杨志豪.基于语义理解的文本倾向性识别机制[J].中文信息学报，2007，21（1）：96-100.

[6]Li S，Wang Z，Zhou G，et al.Semi-Supervised Learning for Imbalanced Sentiment Classification[J].Journal of the Royal Statistical Society，2008，172（2）：530-530.

[7]王永，陶娅芝，张勤.中文网络评论中的产品特征情感倾向提取算法研究[J].重庆邮电大学学报自然科学版，2017（1）.

作者简介：陶娅芝（1991-），女，重庆人，硕士，研究方向：知识发现、评论挖掘。