基于条件随机场的产品特征提取方法

2016-04-07 15:56刘帅凌剑勇吴元昊王斌李正炜
电脑知识与技术 2016年3期
关键词:语法语义

刘帅 +凌剑勇 吴元昊 王斌 李正炜 +杨永健

摘 要:从用户评论获得产品特征信息不仅可以指导用户理性消费,同时也为企业提高竞争力改进其产品质量提供了参考依据。根据中文用户对商品评论的特点,提出了一种基于CRFs(条件随机场)的产品属性、特征提取模型。该模型中集成了多特征实现产品特征抽取任务,提出了一种基于语法、词性、语义的改进特征概念。通过实验结果表明,该模型有效实现了通过产品评论提取产品属性的目的,模型的准确率达到84.65%。

关键词:产品评论;产品特征;条件随机场;语法;语义

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)03-0187-04

1 概述

随着互联网的发展,互联网相关的电子商务、论坛、社交网络等热门互联网衍生物也在飞速发展,越来越多的用户借助互联网平台发布评论。海量的产品评论中包含着丰富的信息量,大多含有关于对产品意见的部分,通过观点挖掘技术,可以帮助潜在用户更准确地了解产品的性能、质量等相关信息,作为合理购买的依据,同时,也为产品制造商提供了用户的兴趣点、关注点等数据。

近几年,国内外在文本挖掘领域倾向于对文本的情感分析和观点挖掘的研究,情感分析可以粒度化为篇章级、句子级和词语级,通过判断词语的情感极性来确定句子的情感倾向,从而判断评论的情感倾向;观点挖掘可以分为段落级,句子级和特征级,其中段落级和句子级的研究主要是分类段落和句子的语义褒贬倾向。Hu[1]提出的一种基于WordNet字典的模型,该模型利用情感词,计算每一条评论中最接近特征词正负情感词的数量。在特征级的方面的研究,主要集中通过评论挖掘产品属性特征。Hu[1-2]采用关联分析的方法,在产品评论中提取产品特征,定义判断距离产品特征最近的形容词为观点词。Li[3]通过人工的方法确定产品特征。缺陷是人工定义的特征具有主观性,并且很难移植到其他领域。Popescu[4]通过观点主题和观点词人工定义了模板,通过基于模板形成一套抽取规则抽取产品特征。Zhuang L[5]提出一种通过对领域知识的机器学习,利用CRFs模型抽取产品特征的方法。

2 产品特征识别系统模型介绍

该系统模型分为两部分:一、评论数据,通过人工标注建立语料库,语料通过特征提取模板,形成训练集和测试集。二、训练集通过CRFs方法进行机器学习,生成CRFs训练模型,测试集通过CRFs训练模型,提取出产品特征。

本文模型设计是利用JAVA通过MALLET中集成的CRFs工具实现的。图1给出了产品特征识别识别系统的框架。

2.1 CRFs(条件随机场)

条件随机场( Conditional Random Fields, CRFs)模型[6]是近年来提出的一种机器学习方法, 用于在给定需要标记的观察序列的条件下,计算整个标注序列的联合概率分布。CRFs是一种判别式模型,采用的是无向图分布,没有严格的独立性假设,可以任意选取特征。隐马尔科夫模型是生成模型,它针对联合概率p(y,x)建模,在模型中做了若干独立性假设,而条件随机场模型直接对所求的条件概率p(y|x)进行建模,在给定观察序列x条件下推导标签序列y,这使得CRFs模型可以避免独立性假设并捕获不同特征之间的关系。而且因为CRFs采用了全局归一化的方法,避免了最大熵马尔科夫模型中的标签偏置问题。故条件随机场模型在标注上优于隐马尔科夫和最大熵马尔科夫等模型,取得较好的效果。

CRFs是一种无向图模型或者马尔可夫随机域,它采用一阶链式无向图结构计算给定观察值条件下输出状态的条件概率。如图2所示。

输出状态的条件概率。如图2所示。

2.2 CRFs模型特征模版选取

根据网络评论复杂性、多样性等特点,结合近年来中文分词、词性标注、汉语组块等自然语言处理领域的最新研究,采用丰富的特征模板集,以下是对这些特征模板介绍。

2.2.1句法解析析特征定义

1)中文分词特征

本文采用的是由斯坦福大学自然语言小组开发的中文句法分析工具,实现对评论语句进行分词和语法标注,句子成分解析等文本预处理功能。通过分词后的词语作为判断产品特征的基本语言单位。

2)词性标注特征

通过句法解析系统对句子进行语法解析,确定分词后的每个词、字的语法成分,确定目标词的词性特征。该特征也是通过人工标注目标词和基于斯坦福大学自然语言小组开发的中文句法分析工具提取特征。

2.2.2 上下文特征

1)判断目标词与观点词距离

在用户评论中,存在许多主观性的评论,在描述某一种属性特征时,会用到不同的情感词,例如,评价商家物流质量的“发货”,通常会搭配“快捷”,属性往往会有很多常用的情感词与之形成搭配关系,通过确定距离情感词最近的目标词,通过词语语义相似度计算,匹配得出与目标词做相似的产品属性,计算属性于情感词之间的互信息。

2) 基于目标词的上下文特征

根据目标词的词性信息与相邻词的词性信息之间的相关度,以目标词为中心计算临近词的相关度根据经验,我们选取[-2,+2]上下文窗的尺度。

2.2.3 组块特征

通过句法解析工作对句子的处理,我们得到了经过分词、语法、词性标注后的句子单元,能够解析出句子中的单个词、字,中文评论中用户往往是通过短语和固定搭配对产品特征进行描述的,在标注过程中并没有能够标出短语(除专有名词外,例如人名、地名),显然,人名、地名等专有名词通常不是普通产品的特征(与特别服务性产品相关,如旅游、特产),本文根据王莹莹等[7]关于汉语组块的研究及李实[8]基于基本名词短语提取方法,引入了组块特征。

组块被定义为在句子中相邻的,非嵌套的、不包含其他类别组块的词语序列,是符合一定语法,并能反映出实际意义的非嵌套短语。

根据中文评论反映产品特征的特点,主要是通过名词短语、实意性动词、形容词反映特征的,所以组块特征中我们主要采用了了名词组快、动词组块。从句句法解析后的词语中提取出各组组块。

2.2.4 改进词语语义、语法特征

1)基于字典判断词语的语义相似度

利用基于字典《知网》和计算词语之前互信息的方法,确定目标词的语义相似度。提取产品评论的标题和产品介绍中的属性词作为基准词源,通过计算目标词的相似度来确定目标词与产品特征的相关度。

2)改进的语法、语义特征识别方法

通过对产品评论的研究,我们发现可以根据语法确定句子的主语,当主语是人时,句子往往反映的是用户主观意见,宾语往往是配修饰的特征对象,能够反映产品特征的词是名词,动词。形容词。

基于标注的方法,根据人工判断反映特征词进行标注,定义训练集。由于大部分特征通过名词和名词组来识别,通过名词搭配形容词来确定特征也是也是在确定产品特征的方法,但通过动词来判断特征的研究目前仍然不完善,对评论特点的研究,我们发现用户会用描述性语言描述用户体验和功能使用效果,这类的评论单纯通过传统的方法很难识别、匹配产品特征。本文通过标注反映产品特征的观点词,及对点词形成语法关系中从属关系的主语词、宾语词与定义的产品特征语义相似度计算,从而实现对产品特征的识别。

2.3 语料标注规则介绍

本文提出的标注规则如下:

1、具有实义的词能够直接反映特征的单个词

这类词的特点是通过其本身的实义就能够反映产品的特征,属于反映显性特征的词。

2、通过词语搭配反映特征的组块

这类词的特点是不能够直接的判断其特征,如“看起来”,单纯通过动词“看”不能够反映产品外观属性,而通过动词组块“看起来”这可以判断。

3、通过不同词性词语搭配反映特征的,采用嵌套的标注形式

这种搭配形式属于一种由动词、形容组成的动词及其补足语的嵌套结构,不属于组块特征。但往往这类词语搭配的特点是通过组合后共同准确反映特征,消除歧义,如“使用方便”反映了产品的“操作”特征,而单纯通过“使用”或是“方便”都很难准确的判断出操作的特征。这类标注为特别动词组。

3实验及结果分析

3.1 实验过程

本文的数据集通过网络爬虫程序从电子商务网站上爬取电子产品领域的网络评论,爬取了键盘、鼠标、手机、吸尘器4个领域各100条评论文本数据,采用人工标注的方法对产品的特征进行标注,提取出1255个产品特征及相关特征词,利用预处理后的评论文本作为实验数据集。其中随机抽取数据集中70%数据作为文本训练集,另外30%数据作为文本测试集。通过反复10次的交叉校验,综合10校验结果的平均值作为结果,评估模型的有效性。本文采用的评价标准是通过对准确率(P%)和召回率(R%)/及F值(F%)的评价。其中,F值为准确率和召回率的调和平均值。

我们根据第2小节中所介绍的特征模板进行了多组实验,在实验中,我们设置CRFs的参数为默认参数,情感词特征的窗口设置为[-4,+4],上下文词语与词性的窗口设置为[-2,+2]。

本文采用特征模板列表如下:

根据表1,我们规定句法分析特征为基准特征,余下的特征模板作为扩展特征。通过对比各个特征模板的性能,选择效果最好的模板对产品评论进行特征提取,并根据实验结果分析方法的有效性。

3.2实验结果分析

1)通过预料中键盘领域产品评论数据做基准数据,进行结果分析,实验结果如图3、图4所示:

图3所反映的结果是以句法解析特征为基础,基于单一扩展特征的数据分析结果,从图3中,我们可以直观的发现基于本文提出设计的改进的语义分析特征模块和基于词语组块特征的效果最为显著,较之其他方法,最大幅度分别提升了4.65个百分点和3.96个百分点,分析这两组方法,证明在丰富了的动词、形容词及其常用搭配关系的改进词语语义分析方法,其识别效果是明显的,而根据中文的语言习惯建立的词语组块特征,比较传统的单一通过词性、上下文关系和判断情感词距离的方法,能够更全面的描述词语特点。

图4是按照图3中性能优劣的从低到高逐一叠加各种特征模板,进行了对比试验。通过图4数据所示,我们可以直观的发现随着特征模板的不断细化、累加,模型性能也逐步提升,实验为判断在相对较完备的特征训练模型中再集成改进的语义分析特征与基于词语组块特征的性能,我们发现,这两种方法的效果十分接近,在比较集合所有特征模板的综合特征,我们发现性能有较为明显的提升。

通过分析,我们发现,基于本文提出的基于语义特征分析分改进方法,虽然考虑了动词、形容词、语法等综合因素,但都是以词语为基本单位进行分析,而结合词语组块的特征后,定位主语、谓语、固定搭配、都提供了更为全面和精细的特征描述。因此,在相同特征模板集合基础上,集成了上述两特征模块,实验效果十分明显。

3.3 系统性能评估

评估实验中我们采用了李实[8]等人的评估方法,利用通过特征提取系统挖掘出的产品特征与实际产品特征(人工标注、通过产品简介和评论标题获得)计算它们之间的准确率(P%),召回率(R%),作为评估指标。计算法方法如下:

准确率:[(P%)=AA+B]

召回率:[(R%)=AA+C]

F值:[(F%)=2×P×RP+R]

其中,A是实际产品特征数中挖掘出的产品特征数,B是非实际产品特征数中挖掘出的产品特征数,C是实际的产品特征数中未挖掘处的产品特征数。

表2 评估实验结果

[产品名称\&实际产品特征词\&准确率 P%\&召回率 R%\&F值F%\&手机\&376\&84.74\&67.28\&75.00\&键盘\&360\&84.61\&58.84\&69.41\&鼠标\&286\&81.77\&62.41\&70.80\&吸尘器\&233\&87.49\&49.46\&63.19\&平均值\&314\&84.65\&59.50\&69.88\&]

通过观察表2所示结果,4类产品的平均准确率为84.65%,平均召回率为59.5%,验证了该系统的有效性,但由于中文的复杂机构,中文分词系统和词性标注系统还没有完善,在词性标注方面仍然产生了歧义,基于本文提出的基于语法及标注动词、形容词的方法,由于词性判断的不确定性,降低了实验的召回率。

4 结论

在本文中,我们通过对产品评论特点的研究,利用文本挖掘技术,建立了一种基于CRFs(条件随机场)的产品特征识别模型,模型中的特征模版集合了多种特征,通过实验和丰富的实验数据,具体分析了各个特征的性能、局限性,并根据分析结果,采用多特征组合进行进一步实验,得到了比较好的实验效果,验证了本文设计的系统模型的有效性。通过对产品评论语料的分析,我们发现,一个主语往往被并列的描述多个特征,而且往往在后文中会用代词代替等语言特点,如何根据这些特点进行归纳,建立更为全面、适用性强的特征是未来研究的一个方向,同时选取更有效的特征也是未来研究的重点。

参考文献:

[1] H u M, Liu B. Mining Opinion Features in Customer Reviews[C]. In AAAI, 2004. 755-760.

[2] H u M, Liu B. Mining and Summarizing Customer Reviews[C]. Proceedings of The Tenth ACM SIGKDD International Conference on Know ledge Discovery and Data Mining, 2004. 168-177.

[3] Li Z,Zhang M,Ma Se,t al.Automatic Extraction for Product Feature Words from Comments on the Web[C]. In: Proceedings of the 5th Asia Information Retrieval Symposium on Information Retrieval Technology.2009: 112-123

[4] Popescu A-M, Etzioni O. Extracting Product Features and Opinions From Reviews[C]. In Proceedings of HLT-EMNLP2005, ACL, 2005. 339-346

[5] Zhuang L, et al. Movie Review Mining and Summarization[C]. Proceeding of ACM International Conference on Information and Knowledge Management(C IKM . 2006), Arlington, Virginia, U. S.A. 2006: 1- 7.

[6] John Lafferty, Andrew McCallum, Fernando Pereira.Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]. Proceeding of International Machine Learning, MA, Jun. 2001. 282-289

[7] 王莹莹. 汉语组块识别的研究[ D] . 大连: 大连理工大学, 2006

[8] 李 实, 叶强, 李一军,等.挖掘中文网络客户评论中的产品特征方法研究[J].管理科学学报, 2009, 12(2): 142-152.

猜你喜欢
语法语义
好懂、好记、好用的语法来了——《讲道理的语法》
语言与语义
跟踪导练(二)4
Book 5 Unit 1~Unit 3语法巩固练习
参考答案
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
“深+N季”组配的认知语义分析
语义分析与汉俄副名组合
修辞的基础——语义和谐律