基于句法规则与情感词的隐式特征提取

2024-03-21 01:48陈可嘉柯永诚林鸿熙
计算机工程与设计 2024年3期
关键词:细粒度特征词词典

陈可嘉,柯永诚,林鸿熙

(1.福州大学 经济与管理学院,福建 福州 350108;2.莆田学院 商学院,福建 莆田 351100)

0 引 言

人们往往会查阅产品评论进行购买决策,但用户偏好的不同以及海量评论易导致信息过载[1]。因此,评论挖掘技术应运而生,产品特征提取作为首要任务,其结果好坏会直接影响后续任务[2]。产品特征提取可分为显式和隐式特征提取。显式特征是以文字形式在评论出现的特征;隐式特征是不以文字形式出现在评论的特征,但能通过语境推断[3],如“太贵了”中“贵”经由语境推断出它修饰特征“价格”。30%的中文评论含有隐式特征[4]。因此,深入研究隐式特征提取能获得更完整的特征信息。

当前隐式特征提取的主要策略是通过某种算法提取显式特征与情感词,基于其共现关系为情感词确定隐式特征[5]。其研究方法包括关联规则、主题模型、句法关系、机器学习等。前两种方法难以发现低频词,机器学习又过于依赖标注数据集,而句法关系能利用词语依存关系提取出低频词,所以近年来有不少研究都融入了句法关系。但还存在以下不足:一是以名词为候选特征,并主要考虑主谓关系[6],但特征词还有动词、动名词等词性,在句法关系上也有动补结构、并列关系等。二是仅考虑形容词[7,8],或利用情感词典识别情感词[9],前者忽略其它词性的情感词,后者是情感词有限,且与英文词典资源相比,中文词典资源较为匮乏。三是由于隐式特征难以观测,使多数研究仅关注显式特征提取[10,11],少数隐式特征提取研究也基本上面向英文评论[3,12],不利于隐式特征提取研究发展。

针对上述不足,本文主要考虑中文评论出现情感词条件下的隐式特征提取,提出一种基于句法规则与情感词的隐式特征提取方法。通过考虑多种特征词词性及句法关系,利用词向量和中文情感词典构建特征词典和混合情感词典,以此定义句法规则来提取显式特征-情感词,并基于其共现情况来提取隐式特征。

1 相关工作

目前特征提取研究主要关注显式特征提取。邱云飞等[7]使用条件随机场和贪婪式特征选择来提取显式特征。Wan等[13]将词汇关联组合及相关约束融入主题模型来提取显式特征词。Lee等[14]改进卷积神经网络来提取关键特征。

在隐式特征提取上的研究相对较少。最早的隐式特征提取思想是由Liu等[15]提出,利用关联规则提取显式特征-情感词对,根据其映射关系提取隐式特征。随后,Wang等[16]使用频率、点互信息(pointwise mutual information,PMI)等多种算法计算共现度,通过规则选择来识别隐式特征。Zainuddin等[17]使用关联规则和词性模式提取显式特征,并结合句法分析器提取隐式特征。Karagoz等[18]通过匹配候选词与情感词,以及情感词与显式特征的共现关系确定隐式特征。Eldin等[19]使用语言及启发式模式提取显式特征,并应用布谷鸟搜索算法从候选特征列表识别隐式特征。在利用机器学习或深度学习识别隐式特征方面,Rana等[20]定义规则来识别用户意见的潜在线索,考虑意见词、隐式特征线索和归一化谷歌距离的共现关系提取隐式特征。Feng等[21]利用深度卷积神经网络提取显式特征-情感词,考虑特征词作为主题及其与情感词的匹配度提取隐式特征。Afzaal等[22]使用餐厅和酒店领域的决策树为单词指定特征类。Mir等[23]使用BiLSTM-CRF来提取显式特征,并将结果用于处理各类隐式评论。

2 隐式特征提取方法

本文提出一种基于句法规则与情感词的隐式特征提取方法,包括数据收集与预处理、情感资源构建和隐式特征提取3个阶段,其框架流程如图1所示。首先从数据集提取评论数据,进行分句、分词等预处理操作,并基于实验语料和外部语料训练词向量;然后,借助中文情感词典构建混合情感词典,并使用外部语料词向量实现情感词扩展;最后,使用实验语料词向量构建特征词典,根据构建的两个词典,通过定义句法规则来提取显式特征-情感词,根据其共现关系获得隐式特征词典,以此提取隐式特征。

图1 本文方法框架流程

2.1 数据收集与预处理

从评论数据集提取实验语料R={r1,r2,…,rn},同时收集大规模文本作为外部语料。后续预处理工作包括:

评论分句。按照标点符号将长评论ri(1≤i≤n) 切分成多个单句sij,即ri={si1,si2,…,sij},其中j≥1。

分词与词性标注。采用jieba分词对分句后的实验语料和外部语料进行分词和词性标注。

依存句法分析。采用哈工大Pyltp[10]进行句法分析,获得词语的依存句法关系。

词向量训练。利用Gensim库的Word2Vec类分别对实验语料和外部语料进行向量表示,得到相应词向量。

2.2 情感资源构建

情感资源构建工作包括中文情感资源收集、混合情感词典构建和基于评论语料的情感词扩展3个方面。

2.2.1 中文情感资源收集

中文语境的情感词识别及极性判断,一般要借助情感词典,通过判断情感词、否定词和程度副词来度量情感极性或强度。具体来说,情感词表达积极、中立或消极的观点,否定词能转变情感方向,程度副词能增强或减弱情感。为了识别情感词及修饰词,本文使用3种词典,即混合情感词典、程度副词和否定词词典。

(1)基础情感词典

现有不少公开可用的中文情感词典资源,如HowNet词典、NTUSD词典、大连理工情感词汇本体[24]、中文褒贬义词典。这些词典将作为构建混合情感词典的基础情感词典。

(2)程度副词和否定词词典

本文选择HowNet的程度副词词典来识别副词,并利用网络整理了一份如表1的否定词词典。

表1 否定词词典

2.2.2 混合情感词典构建

本文结合情感词在基础情感词典的极性来构建混合情感词典。步骤如下:

步骤1 取出各情感词典中极性较明显的情感词,通过合并去重得到情感词集E={e1,e2,…,ew}。

步骤2 对于情感词ev(1≤v≤w),其极性值pv范围为[-4,0)∪(0,+4]。通过统计ev在各情感词典的极性来确定pv,计算方式如式(1)所示

pv=∑poscountv-∑negcountv

(1)

式中:∑poscountv为ev在各词典中极性为积极的总次数,∑negcountv为ev在各词典中极性为消极的总次数。

步骤3 根据极性值pv的大小判断ev极性。如果pv大于零、小于零或等于零,则ev的情感极性分别为积极、消极或中性,并添加到混合情感词典的积极词表DO、消极词表DB或中性词表DU。

2.2.3 基于评论语料的情感词扩展

为进一步扩展情感词,本文利用外部语料词向量,使用词嵌入模型的相似性功能来搜索实验语料的情感词。这里仅考虑形容词作为扩展对象。步骤如下:

步骤1 对某个不在混合情感词典而在实验语料的形容词A,预设两个空子列表,分别用于存放语义相近的积极、消极情感词。

步骤2 利用外部语料词向量计算A与词表DO、DB内各情感词的相似度,并设置阈值。如果A与某积极情感词的相似度大于阈值,则将该情感词添加到积极子列表,消极情感词的添加方式同理。情感分数AC计算方式如式(2)

(2)

式中:apos>0或aneg>0,apos为积极子列表的词数,aneg为消极子列表的词数。

步骤3 根据情感分数AC确定A的极性。如果AC大于零、小于零或等于零,则A的情感极性分别为积极、消极或中性,并加入情感词集E及相应极性词表。

2.3 隐式特征提取

构建混合情感词典是为了有效识别情感词,以便在特征提取时使用。接下来就是通过定义句法规则提取显式特征及情感词,以此实现隐式特征提取。主要工作包括建立产品特征词典、显式特征提取和隐式特征指定。

2.3.1 建立产品特征词典

建立特征词典能约束特征提取过程中的句法分析结果,以减少噪音词。基于文献[10],建立步骤如下:

步骤1 根据官网、电商平台等网站的产品说明,以及用户评价习惯,将产品特征细分为一些粗粒度特征和细粒度特征,得到细粒度特征集F={f1,f2,…,fk}。

步骤2 统计实验语料中名词、动词、动名词等词频,设置阈值,并为细粒度特征fh(1≤h≤k) 人工选取代表词mhl(l≥1),其中mhl表示fh的第l个代表词,从而获得基础特征词典。

步骤3 利用实验语料词向量归类剩余词汇,计算待归类词cword和各细粒度特征的相似度,即计算cword和fh下代表词簇的相似度平均值,将其分配到相似度最高的细粒度特征。同时设置阈值过滤一些噪音词。待归类词cword与fh的相似度计算如式(3),其中y∈[1,l]且为整数

(3)

步骤4 人工校验并修正归类结果,得到细粒度特征fh={featureh1,featureh2,…,featurehx},其中featurehx表示fh下属的第x个显式特征词,由此获得最终的特征词典。

2.3.2 显式特征提取

本文提取的词对以[特征词,情感词,修饰词]的形式表示。文中使用的句法关系见表2。提取方法如下:①定义6种句法规则,从句法分析结果提取[特征词,情感词]二元组。②根据情感词与修饰词的句法关系,提取修饰词,构成更为完善的三元组。

表2 句法关系描述及示例

(1)定义句法规则提取二元组

本文提出以下6种句法规则来提取显式特征,相关示例的句法分析如图2所示。

图2 相关句法规则的示例分析

SBV规则:如果某特征词featurehx为主语,情感词ev为谓语,并且两者存在SBV关系,则能提取出二元组[featurehx,ev]。以“性价比比较高”为例,其句法分析如图2(a)所示。

VOB规则:如果某特征词featurehx为宾语,情感词ev为谓语,并且两者存在VOB关系,则能提取出二元组[featurehx,ev]。评论“包装太垃圾”的句法分析可见图2(b)。

FOB规则:如果某特征词featurehx作为评价对象,情感词ev为谓语,并且两者存在FOB关系,就能提取出二元组[featurehx,ev]。评论“价位也还能接受”的句法分析可见图2(c)。

ATT规则:如果某情感词ev是定语,修饰特征词featurehx,则能构成二元组[featurehx,ev]。评论“很漂亮的镜头”的句法分析可见图2(d)。

CMP规则:当特征词为动词时,其情感词一般为动词补足语。因此,如果情感词ev是动词补足语,修饰特征词featurehx,则能构成二元组[featurehx,ev]。评论“成像很好”的句法分析可见图2(e)。

COO规则:如果特征词featurehx、featurebc(b≠h或c≠x)并排出现在评论中,并且两者存在COO关系,而featurehx与情感词ev又存在某种句法关系,则认为featurebc与ev也有这种关系,从而提取二元组[featurehx,ev]和[featurebc,ev]。以“外形和手感都不错”为例,其句法分析如图2(f)所示。

(2)包含修饰词的三元组提取

仅提取二元组是不够的,还需要根据情感词的句法关系来识别修饰词,形成更为完善的三元组。

ADV规则:当某修饰词q与[featurehx,ev]的情感词ev存在ADV关系时,且该修饰词在副词或否定词词典中,则能形成三元组[featurehx,ev,q]。以图2(a)为例,通过SBV规则能提取出[性价比,高],同时“比较”修饰“高”,两者存在ADV关系,因此能提取出“比较”,构成三元组[性价比,高,比较]。

CMP规则:如果某修饰词q与[featurehx,ev]的情感词ev存在CMP关系,且该修饰词在副词或否定词词典中,则能形成三元组[featurehx,ev,q]。如图2(g)的示例,根据SBV规则能提取[价格,高],而“一些”修饰“高”,两者存在CMP关系,因此,能提取并形成三元组[价格,高,一些]。

2.3.3 隐式特征指定

根据2.3.2节获得基于实验语料的情感词集E’,以此统计显式特征与情感词的搭配次数,根据其共现关系提取隐式特征。步骤如下:

步骤1 将E’中情感词ev与不同特征词的搭配次数转化为与其上属细粒度特征的共现次数。即ev与细粒度特征fh的共现次数为ev与其下属特征词featurehx搭配次数的总和。

步骤2 以ev对应共现次数最多的细粒度特征作为其默认特征,推出E’中各情感词的默认特征,获得{情感词:隐式特征}形式的隐式特征词典。

步骤3 重新遍历评论,如果评论有在E’而未被提取的情感词,则根据隐式特征词典推导隐式特征,提取包含隐式特征的元组。

3 实验与分析

3.1 数据收集与预处理

实验数据集来自Zhang等[25]发布的相机评论数据集。每条评论都标注了显式特征及情感词,示例如图3所示。其中,[价格,超值,1,1,N]里“1”表示标注词极性,“N”表示没有情感否定。本文提取了20 000条用户评论作为实验语料,同时人工标注200条含隐式特征的评论,共14个细粒度特征的297个结果。

图3 相机数据集评论示例

分句过程以“??!!。.”等标点符号作为分句标志。使用jieba分词进行分词与词性标注,并加入自定义词典来提高分词准确率,包括感光度、遮光罩等。在词性标注去掉了颜表情、无意义字符等字符。在依存句法分析上,则使用Pyltp的依存句法分析模块,将句法关系保存为七元组,如[ATT,做工,0,v,手感,1,n],其中第一位表示两词的句法关系,第二至四位分别表示该句法关系指向的核心词及其位置、词性,第五至七位分别表示该句法关系从属的修饰词及其位置、词性。此外,对实验语料和外部语料进行词向量训练的相关参数见表3。

表3 词向量训练语料及参数

本文以精确率(Precision)、召回率(Recall)和F1值作为评价指标,计算公式如式(4)~式(6)所示

(4)

(5)

(6)

3.2 实验结果及分析

3.2.1 情感资源构建

首先在情感词选择上,HowNet选用正负面的情感词与评价词表,大连理工情感本体选用极性标注为0、1、2的情感词,NTUSD和中文褒贬义词典则全部选用。然后,通过合并去重获得总情感词表,利用式(1)计算各情感词的极性值,由此构建混合情感词典,其中积极词表、中性词表、消极词表分别包含16 037、3324、18 414个情感词。最后,利用外部语料词向量和式(2)进行情感词扩展,扩展的积极词、中性词、消极词分别为137、19、129个。另外,构建过程不考虑词长在4以上的情感词,相似度阈值为0.5。部分扩展词如图4所示。

图4 基于实验语料扩展的情感词

3.2.2 隐式特征提取

首先,基于中关村、京东等网站的产品说明,结合用户评价习惯建立基础特征词典,得到价格、外观设计、曝光控制、镜头、电源、拍摄性能、屏幕、基本参数、服务这9类粗粒度特征,其下包括价格、性价比、颜色、材质等21个细粒度特征。其次,通过词频统计,为各细粒度特征人工选取3个词频在3以上的代表词,得到21个细粒度特征下的63个代表词汇。如“镜头配置”选取的代表词为镜头、滤镜和镀膜。然后,利用实验语料词向量和式(3)计算待归类词与各细粒度特征的相似度,进行特征归类,相似度阈值为0.5。最后,人工校验归类结果,得到255个显式特征词,即相机特征词典,部分归类结果见表4。

表4 相机评论的特征归类结果

根据2.3.2节定义的句法规则,以及建立的特征词典和混合情感词典,从实验语料提取了31 966个元组,包括[耗电量,大,太]、[颜色,美观]等。基于所得元组,统计情感词与显式特征的搭配次数,并转化为与不同细粒度特征的共现次数。将共现次数最多的细粒度特征作为情感词的默认特征。例如,根据图5发现情感词“好看”与细粒度特征“颜色”、“外观”、“拍照性能”的共现次数分别为120、275和14,则可以指定“好看”的默认隐式特征为“外观”。由此获得隐式特征词典。最后,重新遍历评论,如果评论有在情感词集而未被提取的情感词,则根据隐式特征词典确定隐式特征,并提取元组。如评论“确实不好看”,“好看”由于缺少相应的显式特征而未被提取,那么重新遍历时,则能根据隐式特征词典查到其隐式特征为“外观”,并根据句法关系,提取三元组[外观,好看,不]。

图5 情感词与细粒度特征的共现次数

3.2.3 对比与分析

本文设计了对比实验来表明提出方法的有效性。实验共分3组:第一组是验证加入句法关系和混合情感词典的有效性;第二组是与其它显式特征提取工作的对比实验;第三组是与其它隐式特征提取工作的对比实验。

(1)加入句法关系和混合情感词典的有效性验证实验

为验证句法关系和混合情感词典的有效性,本文设计一组实验来比较不同方法的准确度、召回率和F1值。基础方法包括:①基于词向量归类的特征词典的特征词提取,由base_WE表示;②结合归类的特征词典、句法关系、以形容词为情感词的特征提取方法,由base_WE+DE表示;③结合归类的特征词典、句法关系、以HowNet为情感词典的特征提取,由base_WE+DE+HN表示;④结合归类的特征词典、句法关系和以混合情感词典为情感词典的特征提取,由base_WE+DE+EW表示,即本文方法。另外,将隐式特征提取表示为Imp_Recogn。结果见表5。

表5 基础方法组合及结果

从表5可知,不同方法的精确率、召回率和F1值存在差异。base_WE的精确率和F1值最低,召回率较低,原因可能是语料标注词没有本文的特征词典那么细致,一些特征词并不在原标注词内,如“价保”、“对焦”等。加入句法关系后(即base_WE+DE),其精确率和F1值大幅提高,召回率略降,一个可能原因是利用句法关系能有效识别情感词,提取更多的特征词。为提高情感词识别能力,将HowNet和混合情感词典分别融入base_WE,发现虽然精确率略降,但召回率和F1值都有所提升,其中本文方法(即base_WE+DE+EW)的F1值最高,融入HowNet的base_WE次之,可能原因在于情感词典的情感词更多,词性更丰富,因此能覆盖更多的语料情感词,召回更多的特征词。根据图6,基础情感词典中NTUSD的情感词覆盖率最低,HowNet最高,与其相比,扩展的混合情感词典的情感词更多,情感词覆盖率比HowNet高17.4%,足以体现本文构建与扩展混合情感词典方法的有效性。

图6 各词典在实验语料的情感词覆盖率

(2)显式特征提取工作对比实验

本文选择下列3种方法作为对比方法,以验证本文方法在显式特征提取的有效性。

(1)词性标记法,记为base-POS。将名词、动词作为候选特征,提取词频在3以上的候选特征词。

(2)基于FP-growth的提取方法,记为base-FP。基于文献[6]的方法,使用FP增长算法提取产品特征的频繁项集,最小支持度为1%,并进行单字剪枝和非特征项过滤。

(3)基于句法规则的提取方法,记为base-Rule。根据文献[26]使用由词性和句法关系构成的评价搭配模板来提取特征词及评价词。

不同方法的显式特征提取结果见表6。

表6 不同方法的显式特征提取结果

由表6可以发现,本文方法表现最好,在精确率和F1值上与对比方法相比有较大提升,说明了本文方法的有效性。词性标注法将所有名词与动词视为特征词,召回特征词的同时也包含了大量噪音词,因此虽然召回率最高,但精确率太低,影响最终的F1值。基于FP增长算法的提取方法由于仅考虑高频词,排除了低频词,导致最终性能受限。而基于句法规则的提取方法,虽然评价搭配模板能提取出较远距离的评价对象及评价词,但受用户表达习惯的影响,移植性差,因此最终性能也有限。与上述方法相比,本文方法虽然召回率较低,但在精确率和F1值上取得了更优的效果,不仅考虑了句法关系,同时兼顾特征词与情感词的识别,利用特征词典和混合情感词典约束句法分析结果,排除一些无效或干扰项,使方法的移植性更强,更易实现。

(3)隐式特征提取工作对比实验

PMI算法通过计算两个词在上下文的共现概率来判断其相关性,共现概率越高,则相关性越大。词w1与词w2的PMI值计算如下

(7)

文献[16]利用PMI算法来获取评论的隐式特征,本文以此作为隐式特征提取对比的基准方法。基于所得特征-情感词元组,使用PMI算法查找实验语料中显式特征与情感词的共现情况,找到各情感词相应PMI值最大的特征词,并对应到上属细粒度特征。实验结果在297个隐式特征标注结果中非“外观”的有162个,而正确提取的仅35个,其余均为“外观”,因此结果并不理想,召回率为19.87%。可能原因在于“外观”作为常见的细粒度特征,其相关特征词在评论语料的出现概率很高,导致其最终PMI值偏高。由表5的结果可知,本文隐式特征提取的召回率为72.05%,远高于基准方法,因此具有一定的有效性。

4 结束语

本文提出了一种基于句法规则与情感词的隐式特征提取方法。首先,提取评论数据并进行预处理,再分别利用实验语料和外部语料训练词向量。然后,借助中文情感词典资源、外部语料词向量构建并扩展混合情感词典。最后,使用实验语料词向量构建特征词典,根据两个词典和定义的句法规则来提取显式特征及情感词,根据其共现关系获取隐式特征词典,通过重新遍历评论来发现隐式特征。实验结果表明本文方法具有一定的有效性。不过,本文仅考虑了出现情感词条件下的隐式特征提取,对于产品评论可能不会出现情感词的特征提取情况还有待进一步探索与研究。

猜你喜欢
细粒度特征词词典
融合判别性与细粒度特征的抗遮挡红外目标跟踪算法
细粒度的流计算执行效率优化方法
米沃什词典
基于改进TFIDF算法的邮件分类技术
基于双线性卷积网络的细粒度图像定位
评《现代汉语词典》(第6版)
产品评论文本中特征词提取及其关联模型构建与应用
词典例证翻译标准探索
支持细粒度权限控制且可搜索的PHR云服务系统
面向文本分类的特征词选取方法研究与改进