封二英 庞灵
摘 要:针对目前情感倾向分析过于依赖现有经验和大规模语料库的不足,本文提出基于弱监督迭代法的情感倾向分析模型。本模型以较少的种子情感词汇做引导,通过弱监督迭代计算,不断更新、扩充情感词典。在此基础上完成情感倾向分析任务。并将该模型应用到评论情感倾向分析中,验证了方法的有效性。
关键词:情感倾向分析;弱监督;迭代模型;产品评论
1 相关工作
有监督的机器学习方法,无监督算法以及半监督算法是目前情感倾向分析的主要方法。庞博[1]等使用标准的机器学习方法进行文本情感分类工作。宇弘[2]等选用若干极性较强的形容词作为情感词,构成一个种子情感词集合,采用无监督算法判断句子的情感倾向。唐辉丰[3]等利用基于EM的半监督学习算法,对文本进行分类。
2 基于弱监督迭代法的情感倾向分析模型
2.1 数据预处理模块
首先对评论进行分词、词性标注、分句、划分带状区域等预处理,然后选择合适的候选情感词(选取至少出现在两篇或以上文章中、句子中或带状区域中的词语),在此基础上构建情感词典。其中,分词基于简单的二元切分的方法,分别以结构助词、非汉字、标点符号等作为分隔符;句子切分一般以标点符号作为分隔符;带状区域的划分以中英文逗号加上分句采用的标点符号作为分隔符。
2.2 情感倾向分析模块
首先根据情感词典中情感词的情感倾向判断带状区域的情感倾向(如果该带状区域中积极的情感词个数大于消极的情感词个数,则该带状区域为积极的,如果消极的情感词个数大于积极的情感词个数,则该带状区域为消极的);然后由一个句子所包含的所有带状区域的情感倾向判定出该句子的情感倾向;最后由该篇评论所包含句子的情感倾向判定得出整篇评论的情感倾向性。
2.3 情感词典更新模块
根据情感词的出现频率计算情感分數。使用情感词和情感分数更新情感词典。
①人工挑选出极少的情感词作为种子情感词汇,构成最初的情感词典。该步对情感词典的更新工作只在初次计算评论文本情感倾向之前执行一次。
②当候选情感词difference值符合阈值条件时成为情感词,计算它的情感分数。当情感词典中已存在该情感词时,直接更新该词情感分数。否则,将该情感词和它的情感分数同时存入情感词典。当候选情感词difference值不符合阈值条件时,查找该词语是否存在情感词典中,如果存在则从情感词典中删除该词语和它的情感分数。
2.4 迭代算法
本文提出以少量种子情感词汇开始,经过迭代计算情感词的情感分数,来不断更新、扩充和完善情感词典。最终达到对评论进行判定的目的。该算法主要包括以下几个步骤:⑴读取评论作为输入数据;⑵对评论进行分词、分句以及划分带状区域操作;⑶选择候选情感词;⑷从候选情感词中选择种子情感词汇,并设置情感分数,构成最初的情感词典;⑸迭代执行以下步骤来训练情感倾向分析模型:1)由当前的情感词典计算出所有zone的情感倾向;2)由所有zone的情感倾向计算出所有句子的情感倾向;3)由所有句子的情感倾向计算出所有评论的情感倾向;4)通过统计候选情感词的出现频率,选择符合条件的候选情感词作为情感词。计算情感词的情感分数,并更新情感词典;5)判断是否满足迭代终止条件,若不满足则转1);否则迭代终止。⑹输出当前情感倾向分析模型对所有评论的判定结果。
3 模型在产品评论中的应用
本文采用的数据集是淘宝网上与连衣裙相关的中文评论性文章。本文对连衣裙数据集中的1489篇评论情感倾向进行了人工标注。其中1375篇为积极的评论,114篇为消极的评论。采用准确率、精确度、召回率、三个指标进行性能评价。本文采用的迭代终止条件是迭代次数达到阈值。实验结果显示:第1次迭代后三个指标分别为0.68、0.91、0.72,随着迭代次数的增加,三个指标也随着提高,当迭代次数达到阈值16次时,准确率为0.87、精确度为0.92、召回率为0.94。通过分析数据可得,该模型在评论文本中的表现较好,具有较高的准确率。
[参考文献]
[1]庞博,等.使用机器学习技术的情感分类[C].自然语言处理中的实证方法,ACL-02会议,2002:79-86.
[2]宇弘,等.关于从观点中分离事实的研究[C].EMNLP-03,2003:129-136.
[3]唐辉丰,等.使用标注和未标注文档进行文本分类[J]2000,39(2-3):103-134.