郭 冲,王振宇
(1. 华南理工大学 计算机科学与工程学院,广东 广州 510006; 2. 华南理工大学 软件学院,广东 广州 510006)
细粒度意见挖掘(Fine-grained Opinion Mining),又称为基于特征的意见挖掘(Aspect-oriented Opinion Mining),深入到产品特征层面,能够提取到评价信息中涉及的评价对象、评价词以及对应的评价倾向等意见要素,从而为一些实际应用提供必要的细节信息。
本文定义了一种用于细粒度意见挖掘的领域情感本体结构,称为情感本体树(Sentiment Ontology Tree, SOT),通过评价搭配抽取算法、评价搭配倾向预测算法及特征聚合算法三个主要算法自动构建这棵情感本体树,构建的本体树反映了意见挖掘的成果。
目前,本体概念已经应用到了意见挖掘的多个任务中。Lau[1]提出一种应用于意见挖掘的模糊情感本体及其自动构建方法,重点关注领域特征、领域情感词及它们之间的对应关系的抽取,通过在人工标注的评论集上进行文本情感倾向分类测试达到不错的效果。Wei[2]使用情感本体树处理评论信息中的特征层次嵌套关系及评论对象和评价词的对应关系。Cheng[3]研究了细颗粒度的情感分析,根据评价对象的本体概念和语义倾向使用启发式规则选择评价语句。姚天昉[4]使用领域本体抽取语句主题以及主题的属性,使用句法分析确定语句中每个主题的极性。史树敏[5]提出了一种基于领域本体的指代消解方法。冯淑芳等[6]建立了面向汽车评论意见挖掘的本体知识库,包括评价体系、词汇知识库以及概念关系。徐琳宏[7]介绍了大连理工大学信息检索实验室的情感词汇本体。
在细粒度的意见挖掘中主要有以下问题和挑战。
(1) 如何抽取用户评价信息中的产品特征、评价词及其搭配关系;
(2) 情感词的领域依赖性,例如,“机身圆滑(褒义)”,“他很圆滑(贬义)”;
(3) 情感词的上下文依赖性,如关于手机的评论中,“高”相对于“分辨率”来说是褒义,而对于“耗电量”来说却是贬义的;
(4) 评论对象的层次嵌套关系,例如,“屏幕”的子特征有“分辨率”与“显示效果”。
结合这些问题与挑战,本文重点研究了评价搭配抽取算法、搭配倾向预测算法以及特征聚合算法,构建情感本体树,并应用于评论意见的挖掘之中。根据在线评论的特点文中研究的算法是基于统计与规则相结合的方法,并结合评论搭配模板进行特征的抽取,相比于前人的研究方法保证了准确率,提高了召回率,另外,基于多知识源融合的松弛标记法很好地处理了情感词的领域依赖性和上下文依赖性,这一点可以在后面的实验结果中得到体现;另外,本文中研究的突破点在于基于本体模型构建了一种树形结构的情感本体树,用于组织和反映产品特征、评价词、特征与评价词关联关系(评价搭配)以及特征层次嵌套关系,并用于细粒度的意见挖掘。
不同于一般意义的本体模型,本文关注的是产品与特征、特征与评价词等概念间的关联关系,因此,使用树型结构组织这些关系,称之为情感本体树(Sentiment Ontology Tree, SOT),其结构如图1所示。
SOT定义为一个三元组SOT={C,RNTAX,RTAX},其中C表示概念的集合,对应于SOT中的节点,RNTAX表示一种无分类的关系集合,比如图1中的关联(associated)关系,RTAX表示一种分类关系的集合,比如图1中的is-a、kind-of关系。在倾向性分析时关注的是RNTAX集合,也就是产品特征、评价词、特征之间的层次关系以及与特征与评价词的关联关系。
图1 情感本体树结构
SOT的自动构建过程如图2所示,主要包括评价搭配抽取、搭配倾向预测和特征聚合三个部分。下文中分别讨论每个部分的具体过程。
图2 SOT自动构建过程
本文抽取的细粒度意见要素包括产品特征、评价词、特征与评价词的关联关系以及评价强度。
5.1 基于先验知识的模板匹配算法
本文提出一种统计和规则相结合的抽取算法——基于先验知识的模板匹配算法来进行意见中的特征抽取。结合统计与规则方法的优点,使用统计方法获取的高频特征短语作为规则方法的先验知识,在保证规则方法准确率的同时,提高抽取的召回率。
5.1.1 基于统计的高频特征短语抽取
本文使用经典的Apriori算法从评论集中挖掘高频名词和名词短语作为候选特征。然而,并不是所有的高频候选短语都是产品特征,本文引入三条规则过滤候选集。
(1) 紧密度过滤
假设f是一个候选短语,它包含了n个词,如果句子s包含f并且其中的n个词的出现顺序为w1,w2,…,wn, 如果任意两个相邻词wi和wi+1之间
小于3个词距离,且wi和wi+1之间只包括连词和助词,就认为f在s中是紧密的;如果m个句子包含了f,而且f在其中至少两个句子中是紧密的,就认为f是紧密的。
(2) 冗余过滤
候选短语c的单纯支持度定义为包含短语c同时不包含c的超集的语句数。凡是单纯支持度小于3的候选短语都不是合格的候选特征。
(3) 特殊字符过滤
为了提高特征抽取的准确率,本文总结了80个不能成为特征词的特殊字符和词语,部分词语如表1所示。
表1 特殊字符举例
5.1.2 引入先验知识的评价搭配抽取模板
引入高频特征先验知识的评价搭配模板如表2所示。我们使用“asp”标记统计方法获取的高频特征知识,并将其加入到名词短语的扩展形式中,例如,“拍摄/v 效果/n”被标记为“拍摄效果/asp”。
基于先验知识的模板匹配算法流程如图3所示。
表2 评价搭配模板
续表
说明:表中评价模式并不能概括所有的评价搭配,例如,“外观、分辨率都很不错”这种情况就只能抽取出“分辨率很不错”,这就需要对语料库进行研究,进而不断补充评价模式。
图3 基于先验知识的模板匹配算法流程
5.2 评价搭配倾向性预测算法
对于抽取到的评价搭配,需要判断其情感倾向(褒义、贬义、中性)以及极性强度。本节首先介绍一个弱监督的倾向预测算法KC(Keyword Classifier,KC)[1]和无监督的分类算法松弛标记法(Relaxation Labeling, RL)。使用改进的松弛标记法,即基于多知识源融合的松弛标记法,完成搭配倾向预测。
5.2.1 KC算法
KC算法根据评价搭配在褒义文本和贬义文本中出现的条件概率预测其倾向性,其中褒义文本和贬义文本由互联网资源的自然标注性判断,如图4所示。
KC值的计算公式如式(1)(2)。
图4 来自泡泡网的用户关于手机的评论
5.2.2 基于多知识源融合的松弛标记法
本文根据KC算法的结果以及三个通用情感词典对松弛标记法进行改进,即基于多知识源融合的松弛标记法,主要改进之处在RL初始化以及邻居关系两个地方。
在每次迭代中,RL使用更新方程更新每个评价搭配的标记概率。在第m次迭代中,使用q(t,L)(m)表示支持函数,P(l(t)=L)(m)表示评价搭配t标记为标签L∈{褒义,贬义,中性}的概率,P(l(t)=L)(m+1)表示更新之后的标记概率值,则更新方程如式(3)所示。
其中,L′∈{褒义,贬义,中性},α>0是一个用于控制迭代收敛速度的经验值。
对于一个评价搭配t,支持函数q(t,L)(m)计算第m次迭代中在t的邻居集合N作用下标记L的概率。使用Ak={(tj,Lj)|tj∈N},0 假设t的各个邻居的标记相互独立,式(4)可以写成式(5)。 1) RL初始化 RL初始化的工作是计算每个评价搭配的初始标记概率,即P(l(t)=L)(0)。 KC算法把评价搭配集合S分为三个部分: 褒义评价搭配集合Spos、贬义搭配集合Sneg和中性搭配集合Sneutral。 对于Spos中的评价搭配: 对于Sneg中的评价搭配: 本文认为Spos与Sneg集合中的标记结果是准确的,由式(3)可知,在后续的迭代过程中,Spos与Sneg中的评价搭配的标记概率将保持不变。 对于Sneutral中的评价搭配,使用的情感词典包括《知网》情感词典、台湾大学的情感极性词典以及一个网络用语情感词典。Sneutral中的评价搭配的初始标记概率计算如下: 若评价搭配的评价词在情感词典中,则: P(l(t)=L)(0) 其中,P(l(t)=L)(0)的概率值0.8,0.1均是对应的经验值。 若评价搭配的评价词不在情感词典中,则: 其中,|·|表示集合元素数,表示Sneutral中评价词在标签为L的情感词典中的元素集合。 2) 邻居关系 本文定义评价搭配之间的邻居关系如下。 (1) 并列关系 “(拍照效果)其实挺好的,而且(电池)在安卓机中算是很耐用的了。” 其中,<拍照效果,好>和<电池,耐用>之间是并列关系,所以可以认为它们有相同的情感倾向; (2) 转折关系 “(配置)不高,但是(系统)流畅” 其中,<配置,不高>和<系统,流畅>之间是转折关系,所以可以认为它们有相反的情感倾向; (3) 邻近关系 如果两个相邻的评价搭配即不属于并列关系,也不属于转折关系,称二者之间的关系为邻近关系。具有邻近关系的评价搭配很有可能有相同的情感倾向,例如, “(上网)很不错。(电池)也很好,物流也很给力。” (4) 相似关系 产品特征关系: 本文使用编辑距离[8]计算产品特征间的相似度,如果相似度大于阈值,则是相似的; 评价词关系: 根据《知网》语义相似度[8]判断评价词之间的相似关系。 “(拍照效果)很好” vs “(显示效果)不错” 两个评价搭配之间的相似关系由对应产品特征之间的关系和评价词之间的关系共同决定。在上面的例子中,通过编辑距离计算相似度判定 “拍照效果”与“显示效果”是相似的,而“好”与“不错”通过知网相似度计算判定为相似关系,则两个评价搭配就是相似的。在两个评价搭配中产品特征相似的情况下,评价搭配之间的关系与评价词之间的关系一致。 使用T表示关系集R中的一种关系类型,即T∈R,NT表示通过关系T与t相连的邻居集合。Ak,T表示NT中元素的一个标记序列,则Ak=UTAk,T。P(l(t)=L|Ak)(m)表示为式(10)。 对于每一种关系T,定义特征函数fT(t,L,Ak,T)表示P(l(t)=L|Ak,T),式(10)演化为式(11)。 假设NT中各元素的标记在给定l(t)的情况下相互独立,根据贝叶斯法则,在第m次迭代中特征函数如式(13)所示。 fT(t,L,Ak,T)(m) 其中,P(Lj|l(t)=L)表示,如果tj与t通过关系T连接,且t的标记为L的情况下tj的标记为Lj的概率。本文假设这个概率值只与T、L和Lj有关,而与评价搭配tj和t无关。对于三元组(T,L,Lj)(L,Lj∈{褒义,贬义,中性}),本文定义了状态转移矩阵表示其状态转移关系。表3列出了并列关系下的转移矩阵, 基于多知识源融合的松驰标记法流程如图5所示。 表3 并列关系状态转移矩阵 图5 基于多知识源融合的松弛标记法流程图 情感本体树中的特征分两层: Feature层和Subfeature层。特征聚合的目的是完成二者之间的层次关系构建,即将待征f分类到Feature层特征集I={i}的过程。有一类在线评论,其中用户对产品的特征分别作出评价,如图6所示。利用这种自然标注性,可以使用KC算法分类特征。 图6 来自IT168的用户关于手机的评论 对于不存在于语料库中的特征,我们使用PMI(Pointwise Mutual Information)算法进行分类,如式(15)至(16)。 特征聚合算法的流程如图7所示。 图7 特征聚合算法流程图 本实验使用COAE2011任务3的评测数据集,并且采用相同的评价方式。任务3的数据集包括电子产品、影视娱乐、金融证券三个领域各2 000篇在线评论文本。评价指标有准确率、召回率、F1,以及对应的宏平均指标,其中F1是首要指标。 实验采用一个基于规则与统计的算法Moghaddam(2010)[9],以及COAE2011中在相应任务中取得最好结果的算法(COAE2011 best)与本文算法进行对比。COAE2011分两个部分展示了任务3的实验结果: 第一是特征和评价词抽取实验;第二是搭配关系抽取与倾向性预测实验。本文中的基于先验知识的模板匹配方法完成评价搭配的抽取,基于多知识源融合的松弛标记法完成评价搭配倾向预测。为了与COAE2011统一,本文将实验结果分成同样两个部分展示,在下文的描述中使用“本文算法”指代以上两个算法。另外,基于先验知识的模板匹配方法有基于规则与基于统计和规则相结合两个版本,下文中如无特别指出,“本文算法”均指基于统计和规则相结合的方法。 7.1 在线评论语料库 语料库包括来自手机之家、泡泡网、中关村手机频道、手机中国、IT168中网友关于手机的评论文本21 530篇(褒义和贬义文本各占一半),以及来自新浪、网易等门户网站的手机评测文章51 228篇。 使用本文算法从语料库中抽取了1 912个特征短语、858个评价词、4 054个<特征,评价词>关联关系(3 434个褒义搭配、620个贬义搭配),通过特征聚合算法完成特征层次关系构建,并将以上知识以情感本体树的形式保存。在处理实验文本的过程中,如果发现特征与评价词存在近邻关系并在知识库中有搭配关系,则抽取评价搭配。另外,领域情感知识库也为基于多知识源融合的松弛标记法提供了重要的领域知识。 7.2 特征和评价词抽取实验 实验结果如表4~7所示。 表4 特征抽取结果 7.3 评价搭配抽取与倾向性预测实验 实验结果如表8、表9所示。 表5 特征抽取宏平均结果 表6 评价词抽取结果 表7 评价词抽取宏平均结果 表8 评价搭配抽取、搭配倾向预测实验结果 表9 评价搭配抽取、搭配倾向预测宏平均结果 7.4 实验结果分析 从表4、表6、表8可以看到,本文算法表现明显优于Moghaddam(2010)和COAE2011的算法。由于Moghaddam(2010)只统计了特征短语的规则,使用邻近特征的形容词作为评价词,而且是应用于英文文本的,所以效果最差。在电子产品领域,本文算法的两个版本中,基于统计和规则结合的方法比只使用规则的方法的特征抽取结果的F1高出将近1个百分点,证明了基于先验知识的模板匹配算法的有效性。COAE2011评测以宏平均作为主要指标,表5、表7、表9列出的宏平均也表明本文算法的效果明显。 在电子产品领域上本文算法表现最好,在影视娱乐和金融证券领域,虽然本文算法的F1值高于COAE2011 best,但是算法准确率却略低于后者。这主要是因为本文使用的在线评论语料库是由手机评论文本组成的,与影视娱乐和金融证券领域差别较大。 本文定义了一种应用于细粒度意见挖掘的情感本体树,并提出其自动构建方法。在细粒度意见要素抽取上,通过分析基于统计和基于规则方法的优缺点,提出基于先验知识的模板匹配算法抽取评价搭配;使用改进的松弛标记法——基于多知识源的松弛标记法预测搭配倾向性。在COAE2011评测数据集上的实验证明了本文算法的有效性,同时说明了领域情感知识对细粒度意见挖掘的重要作用,也证明了解决评价词的领域依赖性是十分必要的。 [1] Lau R Y K, Lai C C L, Ma J, et al. Automatic domain ontology extraction for context-sensitive opinion mining[J]. Proceedings of ICIS 2009, 2009: 35-53. [2] Wei W, Gulla J A. Sentiment learning on product reviews via sentiment ontology tree[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 404-413. [3] Cheng X. Automatic topic term detection and sentiment classification for opinion mining[D]. Master Thesis. Saarbrücken, Germany: The University of Saarland, 2007. [4] 姚天昉, 聂青阳, 李建超, 等. 一个用于汉语汽车评论的意见挖掘系统 [C]//中文信息处理前沿进展-中国中文信息学会二十五周年学术会议论文集. 北京: 清华大学出版社, 2006: 260-281. [5] 史树敏, 黄河燕. 基于领域本体的指代消解策略研究 (英文)[C]//中国计算技术与语言问题研究——第七届中文信息处理国际会议论文集. 2007. [6] 冯淑芳, 王素格. 面向观点挖掘的汽车评价本体知识库的构建[J]. 计算机应用与软件, 2011,(5): 45-48. [7] 徐琳宏, 林鸿飞, 潘宇, 等. 情感词汇本体的构造[J]. 情报学报, 2008, 27(2):180-185. [8] 刘群, 李素建. 基于《知网》的词汇语义相似度计算[J]. 中文计算语言学, 2002, 7(2): 59-76. [9] Moghaddam S, Ester M. Opinion digger: an unsupervised opinion miner from unstructured product reviews[C]//Proceedings of the 19th ACM international conference on Information and knowledge management. ACM, 2010: 1825-1828.6 特征聚合算法
7 实验结果与分析
8 总结