孙家媛,张艳荣,谢云熙,王加迎,张丽霞
(1.哈尔滨商业大学 计算机与信息工程学院,哈尔滨 150028;2.哈尔滨商业大学 黑龙江省电子商务与信息处理重点实验室,哈尔滨150028)
随着互联网的快速发展,越来越多的行业从线下转向线上,如京东、淘宝等购物网站,携程、途牛等旅游网站,饿了么、美团外卖等外卖网站.数据显示,人们的生活与互联网紧密相连,为人们带来了一种新的消费方式.由于电子商务在线销售的特点,各种网站和电子商务平台都有专门的评论区,用户不仅可以从中获取信息,还可以方便地评价网络上的商品、业务和服务.人们通过参考其他消费者对购物体验的反馈,表达他们对商品的意见和看法,为其他客户提供参考,帮助企业提高产品质量和售后服务,帮助电商平台完善推荐系统,制定更准确的营销策略.
虽然电子商务文本评论可以直接表达人们的真实想法,但它们具有数据量大、口语化明显、非规范性强的特点.商家如果仅仅通过手工提取有用的信息,这将会花费大量人力和物力,而人们通过自己阅读来获取必要的信息,也将导致片面的理解.通过基于规则的观点信息单元识别,充分考虑了句子中词与词之间的词性关系、依存句法关系和语义关系,并对评价单元识别过程中进行隐式评价单元识别和过滤冗余文本,以提高评价单元的识别效果.
在观点信息识别方面的研究上,文献[1]基于依存句法分析技术,于在线评论中构建Word2vec词向量技术的特征库提取用户评论.通过引入依存词对的词性特征,依存关系的组合特征和依存距离约束,提高了观点提取的准确性和质量.所以,对文本进行依存句法分析和语义依存分析,可以影响到观点信息提取的质量,提高观点信息识别的准确率.
本文是基于规则的观点信息单元识别,在规则模板的研究上文献[2]针对短文本内容少,语义丰富且新词和错误词多的特征,提出了一种基于规则的短文本识别算法.通过基于词典的方法,对观点句的识别和情感倾向进行分析,但是该方法存在一定的局限性,导致召回率不高.
文献[3]提出了一种基于组合句法规则的多语言无监督情感分析方法,与大多数监督模型相比,输出具有可解释性,在不同语料库和领域中的鲁棒性.通过引入复合操作的概念并以普遍依赖的形式利用语法信息,解决了对根据相关语言不同结构不同的数据的刚性.文献[4]提出了一种无监督的方法来提取观点和产品功能,为了获得产品方面和观点之间的依赖关系,使用了StanfordCoreNLP依赖解析器.从这些关系中,通过规则来抽取产品和意见.这种方法的主要优点是不需要人工标注数据,并且具有域独立性.
近些年,在观点信息识别的研究中,无监督方法往往是基于规则规则模板的方法.此方法针对文本领域移植性差的问题,利用观点信息之间的句法或语法关系来制定对应的规则,并且不需要进行大量的人工标注.
有监督学习方法是通过训练后的模型对目标数据集进行识别,如最大熵模型[5]、主题模型[6]和条件随机场模型[7]等,由于这类方法准确率较高,所以在评价单元识别方法研究中受到学者们的青睐.文献[8]通过将三个不同的分类器,即支持向量机(SVM),最大熵(MaxEnt)和条件随机场(CRF)组合到一个分类系统中,并对评估单元的候选集进行分类,利用少量标记的样本和大量未标记的样本用于提高识别性能.该方法与单分类器方法进行比较,可以有效地识别主观句子中的评估单元.而文献[9]也是使用有监督学习方法,根据商品评论语料,使用条件随机场进行评价单元识别,组合词特征,依存句法特征和语义特征,达到充分利用上下文信息,提高评价对象的识别准确性的目的.
固然,有监督学习方法确实获得了较高的准确率,但是往往是需要大规模的语料标注,并且很少有考虑到隐式评价单元的识别.文献[10]首先对带注释的文本通过句法和语义关系进行处理.然后使用TF-IDF算法对预处理后的数据集进行统计分析,以确定用户的注意力.最后,用条件随机场模型来识别评估单元.依靠句法分析和语义分析的结果,只能提取显式评估单元,无法识别隐形的评估特征.文献[11]比较并分析了两种主要的隐性特征提取方法,即共现推断法和分类法.通过构造领域词向量将语义关系引入句子模型,并通过增强句子的表达能力来优化算法.讨论了数据集均衡对算法的影响.可惜的是局限于均衡数据集下,算法才表现明显.
由此可见,在评价单元的识别上,虽然有监督学习方法能获得较高的准确率,但是往往需要大规模标注语料,并且在现有的研究中对隐式评价单元的识别方法并不多.
观点信息识别又可以称之为情感信息要素识别,其目的是获取文本评论中具备情感倾向的数据的信息单元,如观点持有者、评价对象、评价词等关键情感因素.一般来说,目前的方法主要包括无监督方法和有监督方法.有监督学习方法使用经过训练的模型来识别目标数据集,如最大熵模型、主题模型和条件随机场模型等[12],这些方法虽然精度高,但需要标注大量语料,标注成本高,领域可移植性差;大多数无监督方法都基于规则模型.该方法指出,评价对象通常是名词或名词短语,而评价词通常是形容词,评价对象与评价词彼此之间兼具评价关系,此方法不采用大批次的人工标注,它利用观点信息之间的句法或语法关系来制定出相关规则.针对领域可移植性差的问题,本文选择基于规则的方法从观点角度来识别信息,其中从观点识别的信息单元主要是评价对象、观点词、情感词和程度词.明确的思路是,在对观点信息单元进行词性分析的基础上,通过制定基于依存句法分析以及语义依存分析结果的相关规则进行识别[13-14].观点信息单元识别流程如图1所示.
图1 观点信息单元识别流程
而对于电商文本评论的内容,观点信息单元主要包括评价对象和评价词语,本文又将评价词语依照词性和功能分为观点词、情感词和程度词.根据词性的分析结果可知,完整的观点表述以下几种形式:①名词+形容词或名词+副词+形容词;②名词+动词或名词+副词+动词;③动词+形容词或动词+副词+形容词;④名词+副词或动词+副词;⑤名词+成语[15].部分中文词性如表1所示.
表1 部分中文词性
由于评论的规范性弱,单使用词性难以提取出准确的观点信息,而依存句法和语义依存关系可以反映句子中词语间的相互修饰关系,现在词性的基础上加入依存句法和语义依存关系的约束来识别句子中的观点信息.
本文采用了哈尔滨工业大学社会计算与信息检索研究中心提供的语言技术平台(Language Technology Platform,LTP)[16],以分句为单位进行观点信息抽取,这里用标点符号作为划分处理的基础,其中包括:逗号、句号和分号等.首先对分句进行依存句法分析和语义依存分析,然后根据解析结果,分析句中观点特征的关系,最后,制定规则进行观点信息识别.
2.2.1 依存句法分析规则制定
依存句法分析(dependency parsing)是对输入的文本进行分析得到语言单位内成分之间的依存关系从而揭示其句法结构处理过程.部分依存句法标注关系如表2所示.
表2 部分依存句法分析标注关系
除此之外,还有ATT(定中关系)和CMP(动补关系)结构可以识别观点特征间的修饰关系.本文基于词性标注融合依存句法分析提出的规则如表 3 所示.
表3 基于依存句法分析的观点信息抽取规则
最后通过LTP工具获得句子中词语之间的依存关系,部分评论的依存句法关系示如图2所示.
图2 部分评论的依存句法关系示例
2.2.2 语义依存分析规则制定
语义依存分析(Semantic Dependency Parsing)是对输入的文本进行分析得到语言单位内成分之间的语义关联,跨越句子表层句法结构的束缚直接获取句子深层的语义信息[17].由于语义依存分析和依存句法分析是从不同层面对语句进行分析,语义依存关系可以分析句子间词语的语义关系,对于语义复杂的句子可以更好地提取出观点信息.因此,使用语义依存关系对提取观点信息进行补充.部分的语义依存标注关系如表4所示.
表4 语义依存分析标注关系
2.2.3 规则运行过程
根据上节所述的设计思路,本节给出具体的基于词性融合依存句法分析和语义依存分析规则的运行过程如下:
1)输入分句.
2)通过依存句法分析和语义依存分析分别得到核心词,判断核心词是否相同,如不同则选择语义依存分析得结果.
3)判断核心词的词性,按照表3的规则进行观点特征提取.
4)按照表3的匹配规则进行核心词后移,并在运行过程中,判断是否有匹配的否定标记或程度标记.如核心词词性为v,匹配规则为VOB→n,则将核心词进行后移,现核心词为该名词.
5)判断核心词是否有并列关系COO,如存在则把其作为核心词,重复步骤3.
6)循环至结束.
按照表3中制定的规则对预处理后的语料库进行信息单元识别,部分评论的信息单元识别结果示例如图3所示.
图3 信息单元识别结果示例
评价单元抽取是指将评论对象、评价词及其程度词作为一个单元进行抽取[18].通常一条评论文本中存在无关评论主体的评论,并且在表达时会包含隐式评论对象导致的隐式评价单元的情况.由于隐式评价对象识别的研究主要是基于评价对象和评价词之间的关系为隐式评论中的情感词匹配特征词[19].因此,本文首先根据评论分句中评价单元是否完整作为依据将其分为关键句和非关键句,然后分别对关键句和非关键句进行噪音过滤,最后以关键句为基础对隐式评价对象的不同表现形式采取不同的方法对其进行识别,进而得到部分隐式评价单元.隐式评价对象识别过程如图4所示.
图4 隐式评价对象识别过程
2.3.1 完整评论对象识别
若仅通过观点信息识别规则,将不能获得完整的评论对象,例如“服务质量”,在规则的识别下仅为该完整评论对象的最后一个单词“质量”,而在语料库中又包括“早餐质量”,“床单质量”等,从而导致不能区分此评论对象为本体的哪个属性.不完整评论对象通常表现为两种形式:①连续的几个单词组成,如:房间设施,其词性通常为名词和动词组成;②由“的”相连的词语:洗手间的水龙头,“的”之前的词通常为名词,并且未识别的部分在语料库中被单独识别为评论对象.因此, 本文通过词性规则对已识别出的评论对象进行完整识别并抽取,并通过ROST Content Mining软件对获得的完整评论对象生成可视化的关系网络,部分关系网络如图5所示.
图5 酒店领域部分评价对象关系网络
本文识别完整评论对象的过程如下:
1) 获取标记为“评价对象”的词,并判断该词是否不在句首;
2) 如果满足条件1),获取该词的前一个词;
3)判断该词标记是否为“其他”,且该词为“的”或该词在语料中的其他语句中被标记为“评价对象”;
4) 如果满足条件3),将其标记为“评价对象”,否则,退出;
5)重复步骤1),直至结束.
2.3.2 关键句识别
1)假设性语句过滤
评价单元的抽取过程中存在未发生的假设性语句,通过匹配特定词语过滤评论中具有假设性倾向的句子,如建议、希望、如果等.部分假设性语句示例如表5所示.
表5 假设性语句示例
2)陈述性语句过滤
如果只是通过以上规则来识别不具有情感倾向的陈述性语句,那么评价单元识别会存在一定的噪音.根据观点的表达习惯,可以看出,当评价词仅为观点词时,评价单元的表达形式为“评论对象-观点词”.当出现“观点词-评论对象”的形式时,不会判断评论对象,而将更多注意力放在动作的发出上.在此基础上,本文从观点信息的角度总结并过滤了陈述式语句的表达形式.
针对相对简洁的陈述性语句,如评论“出差入住的酒店,定了三人间”,其不具有情感倾向,但如果识别为观点词的动词为“有、无、没有、没”,如评论“无电梯”,此类句子又具有了情感倾向,因此,过滤评价词仅为观点词且不是“有、无、没有、没”、评论对象唯一且在评价词之后的句子.
针对相对复杂的陈述性语句,如评论“这家酒店跟旅游网站上看到的样子不一致”,其评价对象不唯一,本文针对这种情况提出了一种评论对象影响因子,此方法通过改进的TF-IDF算法进行计算.TF-IDF是一种衡量特征项权值的有效方法,TF表示特征项词频, IDF 表示逆文档频率,tf-idf值表示某词词频越大,且包含该词的文档数越多,则该词重要程度越高[20].而评论对象影响因子随着该词作为评论对象的词频和包含其作为评论对象的文档数均正比,其改进后的tf-idf算法如式(1)~(3)所示:
(1)
(2)
TF-IDF=TF×(IDF)-1
(3)
其中:|D|为文档总数;|{d∈D:i∈d}|为该词作为评论对象的文档数.为避免并列评论对象情况,仅考虑当评价词为观点词、评论对象不唯一且观点词的位置在评论对象中间的语句,计算两个评论对象的影响因子,当后者评论对象的影响因子大于前者时,可以看出评论侧重于后者,因此,过滤此类句子.
部分评价对象的tf-idf值如表6所示.
表6 部分评价对象的tf-idf值
2.3.3 基于结构化主体的隐式评论单元识别
因为中文的言语特质,在上下文语境的提示下,使得语言中含有较多隐含内容[21].在对评价单元的抽取过程中,只关注了直接包含在句子中的评论单元,而忽略了隐含的评论单元,隐式评价单元的识别主要通过识别隐式评价对象来完成,其中隐式评论对象主要包含三种情况,缺省评价对象:如评论“吃的很饱”,省略了评论对象为“份量”;泛指评价对象:如评论“酒店很实惠”,使用了更大范围的评论对象“酒店”,而非精准的评论对象“性价比”;虚指评论对象:如评论“吃饭购物都很方便”,其中“吃饭购物”指评论对象“位置”.识别隐式评论单元可以更全面捕捉用户关注商品的某一方面或某一属性,又可以提升方面级情感分析的精度.现有研究中的隐式评论单元的识别方法多数通过某种算法生成显式的评价单元,再寻找包含隐式评论对象的评论句中的意见以确定相应的属性.在此基础上,本文所使用的方法与现有方法相比主要有以下不同:
1)对评论对象之间的相关性、相似性进行了人工的整理,并将评论对象结构化,从而对主体更深入的了解,进而对隐式评论对象的识别大大的提高.
2)在考虑情感词与评论对象之间关系的同时,还将观点词与评论对象之间的关系考虑在内.
2.3.4 隐式评价单元识别
在电商文本评论中,会通过多种不同的方式对主体进行评价,但存在一些专属的评价词修饰某一特定的评论对象,如“贵”修饰唯一评价对象“价格”,也存在一些特殊的评价词修饰一部分评论对象,如“方便”修饰评价对象“交通”或“位置”,而通用评价词可以修饰所有评论对象,如“好”.基于此,本文构建4张表来进行隐式评论对象的识别.第一张表为1v1评价单元-其中为唯一修饰关系的评价搭配;第二张表为1v多评价单元-其中为特殊但不唯一修饰关系的评价搭配;第三张表为通用情感词;第四张表为上下文语义关联评价单元-其中为前一句中出现的评价搭配.其表的优先级为1v1评价单元表>1v多评价单元表>上下文语义关联评价单元表>通用情感词表.部分评价搭配如表7所示.
表7 部分评价搭配
隐式评论对象识别的过程:
1) 判断该评价词是否出现在1v1评价搭配表中,若出现则确定为该评价对象.
2)当该评价对象没出现在1v1评价搭配表,判断是否出现在1v多评价搭配表中,若出现,则查看上下文语义关联评价搭配表的评价对象是否相同,或通过评论对象结构图判断其评价对象关系是否相似.
3)当该评价词为通用情感词,查看上下文语义关联评价搭配表,若不存在,表明该评价词在句首,自动赋予评价对象“酒店”.
本文实验评论语料是谭松波老师收集整理的携程网上的中文酒店评论(ChnSenti Corp),其中包含3个不同数据量的数据集,分别是10 000条的不平衡数据集、6 000条的平衡数据集和2 000条的平衡数据集,接下来的实验将采用不同数据量的酒店评论数据进行.
1)评价指标
本章实验采用了召回率(recall)、准确率(precision)和F1值(F1-Score)作为评价单元识别的评价指标,如公式(4)~(6)所示:
(4)
(5)
(6)
其中:a为正确识别的评价单元的数目;b为实际存在的评价单元的数目;c为程序识别的评价单元的数目.
2)基于上述方法获得评价单元,部分评价单元识别结果如表8所示.
表8 部分评价单元识别结果
3)评价单元识别结果及分析
为证明本文方法的有效性,本文对数据集进行了三组对比实验,具体如下.
第一组实验分别对原始语料和过滤后的语料进行评价单元的识别;
第二组实验为基于最大熵模型的评价单元识别;
第三组实验为进行隐式对象识别和不进行隐式对象识别的评价单元识别实验.
实验结果分别如表9~11所示.
表9 第一组实验结果对比
从表9的实验结果可以看出,抽取关键句可以提升评价单元的识别效果.由于原始数据中存在大量不具情感情感的假设性语句和陈述性语句,仅仅使用依存句法分析想得到理想的结果比较困难,而对消除原始语句的冗余后,可以改善这个问题,进而提高识别的结果.从表10的实验结果可以看出,本文方法与文献[15]最大熵模型的结果进行对比,其在各个指标上都得到了提高,由此证明了本文方法的的有效性.隐式评价单元多以隐式评价对象的方式表达,从表11的实验结果可以看出,本文针对隐式评价对象的情况对隐式评价单元进行了识别,进而提高了整体评价单元的识别效果.
表10 第二组实验结果对比
表11 第三组实验结果对比
随着互联网的快速发展与普及,人们在互联网上自由发表言论、表达情感.同时,各种电商平台的出现,导致互联网上产生了对不同商品的评论文本,此类文本不仅可以表达购买者的情感倾向,而且可以成为潜在购买者决定是否购买的重要凭证之一,如何有效利用这类文本,并从中挖掘出其有用的信息已经成为大量学者的研究热点.本文虽然能识别隐式评价单元,但是识别效果仍有待提高,后续的研究重点会放在如何更好提升文本的准确率,召回率以及识别性能上.