产品评论文本中特征词提取及其关联模型构建与应用

2017-12-02 01:52余琦玮徐新胜王庆林
中国机械工程 2017年22期
关键词:特征词关联节点

余琦玮 肖 颖 林 静 徐新胜 王庆林 张 飞

1.中国计量大学工业工程研究所,杭州,3100182.中国计量大学机械设计制造及其自动化研究所,杭州,310018

产品评论文本中特征词提取及其关联模型构建与应用

余琦玮1肖 颖1林 静1徐新胜1王庆林1张 飞2

1.中国计量大学工业工程研究所,杭州,3100182.中国计量大学机械设计制造及其自动化研究所,杭州,310018

网络上产品评论文本是用户对产品的评价与反馈,及时、有效挖掘其中有价值的信息是制造企业、销售商获取竞争优势迫切需要解决的问题。综合词形、词性、依存关系、控制词及其情感描述等,设计了特征词提取规则单元以及规则模板,基于条件随机场实现了产品特征词的有效提取,并对特征词进行分类;构建了特征词频次、情感评分的计算模型;结合产品特征词的内容与分类,构建了产品特征词关联模型。在此基础上,提出了基于贝叶斯网络的产品特征词关键影响因素推理方法,并以某手机产品为对象进行应用与验证。研究结果可以为制造企业、销售商的精细化管理提供实施依据。

文本挖掘;特征词提取;情感评分;关联模型构建;影响因素推理

0 引言

随着大数据时代的到来,数据成为一种重要资源,基于海量数据的科学决策和精细化管理将成为现代企业管理发展的必然趋势[1]。在电子商务领域,海量的产品评论蕴含着丰富的信息,但往往用户、企业等需要花费大量时间才能找到感兴趣的信息。评论(包括政治评论、文学评论、电影评论、产品评论、餐饮评论等[2])挖掘是近年兴起的处理海量评论数据的有效方法。产品评论挖掘的主要任务是产品特征词提取以及针对产品特征词的情感评价[3]。产品特征词提取是指从产品评论文本中抽取用户评价的、与产品有关的词语,通常包括产品的功能、性能、可用性、售后服务等,是产品评论挖掘的基础环节。

针对产品特征词提取,研究人员提出了许多方法。在英文产品评论方面,HU等[4]提出了抽取频繁项作为产品特征词的方法。进一步地,WEI等[5]对该方法进行改进,通过从General Inquirer中挑选出形容词对频繁词集进行删减,提高了特征词提取的准确率和召回率。余传明等[6]基于支持向量机,研究了从客户评论文本中提取产品特征词的方法。JAKOB等[7]基于条件随机场(conditional random field,CRF),研究了产品特征词及其情感词的提取方法。此外,SU等[8]提出了基于模式知识的产品特征词及其情感词的提取方法。由于中文语言与英文语言在句子结构、句法、语法等方面的不同,针对英文评论文本的产品特征词提取方法和技术不能直接用于中文评论文本的挖掘。于是,李实等[9-10]将文献[4]的方法引入中文网络评论的特征提取应用中,结合汉语特点,对提取结果进行单字词的剔除,取得了较好的效果。JIANG等[11]基于CRF,研究了提高中文评论文本中特征词提取的方法。王永等[1]采用FP增长算法和PMI阈值过滤技术,实现了对网络评论中产品特征词的提取。祖李军等[12]提出了PMI的改进算法PMI-Bootstrapping,并应用在论坛评论的产品特征词提取中。马柏樟等[13]提出了基于潜在狄利特雷分布模型的特征词提取方法。徐建民等[14]在本体库的基础上,利用TF-IDF算法实现了对文本中特征词的提取。以上研究都是以获取与产品相关的特征词为基础,并实现了针对特征词的观点判别、情感分析、重要性排序等应用。然而,产品特征词中包含的内容和信息通常很多,如有描述产品零部件本身的特征词、有描述零部件功能、性能的特征词,以及描述产品在使用、服务等方面的特征词,且这些产品特征词之间存在一定的关联,并相互影响,已有的产品特征词提取方法及其应用都没有开展这方面的研究工作。深入研究和分析产品特征词之间的关联与影响,可以为制造企业、销售商的科学决策和精细化管理提供实施依据。鉴于此,本文以网络评论文本挖掘为手段,运用规则设计、模板构造等方法,有效提取产品评论文本中的特征词,并构建产品特征词关联模型。在此基础上,实现基于贝叶斯网络的关键影响特征词推理与应用。研究结果可以为制造企业、产品销售商在产品改进、管理与服务等方面提供实施依据。

1 网络评论与产品管理

基于各种服务平台,通过网络终端、移动终端等进行信息交流、沟通,以及商品交易等,已成为现代社会生活的一种重要形式。用户在电商平台(如淘宝、京东、亚马逊等)购买了商品,通常会对商品进行评论与反馈。这些评论文本中蕴含着有关产品功能、性能、服务等方面的信息,如“这个手机分辨率不错,性价比不错,但物流不太给力”。制造企业、销售商如果能够获取这些信息,加以有效利用,将会为其产品研发、服务等提供指导依据。同时,用户也可以通过这些信息决定自己的购买行为。近年来,制造企业、销售商逐渐关注到用户评价、反馈信息对产品管理、提高客户满意度、提升服务水平的重要性[5]。

有效提取产品评论文本中的特征词,深入挖掘特征词之间的关联与影响关系,能够为科学、定量的精细化管理提供支持。在此思想指导下,本文提出一种基于网络评论文本挖掘的产品特征词提取方法,如图1所示。

图1 基于网络评论文本挖掘的产品特征词提取及其应用Fig.1 Product feature extraction and its application based on online review mining

借助网络爬虫技术,从网页、论坛、平台等信息源抓取与目标产品相关的用户评论文本。在此基础上,产品特征词提取及其应用的工作主要分为四个阶段。

(1)基于CRF的产品特征词提取。为了对目标产品进行深入分析,从分词结果中筛选出与产品相关的特征词。CRF模型[15]是一种判别式概率模型,能够有效标注、分析序列资料(如自然语言文字等)。本文采用CRF模型实现产品特征词提取。首先,准备一定规模的训练集,并完成情感词标注等;然后,设计特征词提取规则,在此基础上,运用CRF系统完成关键的产品特征词提取工作。

(2)产品特征词的定量描述。产品特征词的定量描述包括:频次和情感评分计算。产品特征词的频次是指特征词在所有评论文本中出现的次数之和,反映了用户对该特征词的关注程度。产品特征词的情感评分描述了用户对该特征词的喜爱、偏好及其程度。频次计算和情感评分为定量分析产品特征词及其应用提供了数据基础。

(3)产品特征词关联模型构建。基于分词结果和CRF提取得到的产品特征词集,结合产品特征词分类,将产品特征词与产品基础结构上各相关节点(零部件)分别建立联系,构建产品特征词关联模型,为实现以产品及其零部件为目标的管理应用提供模型与数据支持。

(4)基于评论文本挖掘的产品管理应用。通过产品特征词提取及其频次计算和情感评分,在识别出用户关注度高、评价负面的产品特征词的基础上,结合产品特征词之间的关系以及特征词与产品结构之间的关联与数量信息,深入分析引起用户负面评价的潜在影响因素(产品特征词),为制造企业或销售商的产品管理提供实施依据。

2 基于CRF的产品特征词提取

CRF模型[15]中,随机变量x表示需要标记的观察序列集,随机变量Y表示相应的标记序列集,假设所有的yi∈Y在一个大小为N的有限字符集内。基于CRF的产品特征词提取过程如图2所示。在对评论文本进行广泛分析的基础上,首先给定训练集,并人工标注产品特征词及情感词等,同时,从分词词语、词性、依存关系、支配词等,以及标定的特征词类型、情感词等方面,设置特征词提取规则。然后,通过CRF模型对训练集进行遍历,结合特征词提取规则,通过学习得到CRF的核心功能模块Models,在此基础上,实现从评论文本的分词结果中提取相关产品特征词的目标。

图2 基于CRF的产品特征词提取过程Fig.2 Workflow of product feature extraction based on CRF

2.1特征词提取规则设置

中文由于自身语法、句法、句子结构等的复杂性,且用户在网络上发表评论通常用语较随意[16],不断有新的词汇或表达方式产生,因此,产品特征词提取、情感评价等难度较大。

为了从产品评论文本中深度挖掘产品的特征词,本文设计了一个三元组的规则单元结构,即[p,Ω,T],其组成元素的内涵如图3所示。

由图3可以看出,特征词提取规则在相对位置p、信息类型Ω及其内容T三个方面进行了描述和规定。其中,与当前词语相关的其他词语的位置及其内容分别用p和T进行描述。+p表示相对当前词语的后面第p个位置,而-p表示相对当前词语的前面第p个位置。T表示所描述位置上的具体内容。信息类型Ω从词法(词形、词性、上下文)、句法(依存关系、支配词)两个领域对对应位置所描述的信息类型进行了规定,这些类型分别用符号(0,1,2,3,4)进行表达。图4给出了一个规则单元结构及其内涵。其他规则的内涵也可以通过这种形式进行解释,不再赘述。

图4 一个规则单元结构及其内涵描述Fig.4 Cell structure of a rule and its description

以此为基础,通过规则单元之间的组合,可以构造具有特定功能目标的特征词提取规则模板,其一般形式如图5所示。模板中第一行描述了单个单元规则的应用,第二行描述了同类规则之间的组合应用,第三行描述了不同类型规则之间的组合应用。例如,通过规则单元[0,1,“n”]与规则单元[1,0,“可以”]之间的组合,描述了:当前词语的词性是名词,且当前词语的下一个词语是“可以”(表示对该产品特征词正面的情感评价)。

[p…k,Ωi,T][p…k,Ωi,T]…[pk+h,Ωi,T]…[p…k,Ωi,T]…[pk+h′,Ωi,T]……

s.t.

i,i′∈{0,1,2,3,4} andi≠i′

k,h,h′=const.

图5特征提取规则模版内容的一般描述形式

Fig.5Generaldescriptionformoftemplatecontentoffeatureextractionrule

基于特征词提取规则模板,借助CRF方法,以每条评论文本为单元,将其中所有符合条件的特征词全部提取出来,并按照它们在评论文本中出现的位置顺序存储,作为产品特征词关联模型构建的数据基础。

2.2产品特征词分类

通常,从产品评论文本中提取的特征词包含很多方面的内容。为了深入分析产品特征词之间的内在关联与相互影响,从评论文本中提取到的产品特征词需要进行区分,便于相关数据的统计和分析。本文中根据研究对象的特点,产品特征词主要分为五大类:产品/零部件名称特征词、产品/零部件功能特征词、产品/零部件性能特征词、产品/零部件可用性特征词、产品服务特征词。产品特征词分类及其之间的逻辑关系如图6所示。

图6 产品特征词分类及其逻辑关系结构Fig.6 Product feature classification and its logic structure

产品/零部件名称特征词描述产品/零部件的名称,如xx F2、摄像头等。这些特征词常用于用户评价一个产品或者其零部件,是构建特征词关联关系的依据。

产品/零部件功能特征词描述产品/零部件功能方面的特征,如拍照、录影等。

产品/零部件性能特征词描述产品/零部件性能方面的特征,如像素、续航时间等。

产品/零部件可用性[17]特征词描述产品/零部件的功能在可掌握、流程合理、操作简便等方面的特征。

产品服务特征词描述产品在快递、物流服务方面的情况,如快递送到时间长短、货物包裹是否完好等,也是网络购买用户非常关注的内容之一。

这些特征词之间通过修饰、共现等方式,形成了内在的关联关系,实现对产品零部件的描述,是构建产品特征词关联模型的依据。

3 产品特征词的定量描述

3.1特征词频次

特征词在评论文本中出现的次数反映了用户对该产品特征词的关注程度,是制造企业深入了解客户关注点的一个方面。评论文本中,特征词i出现的频次计算模型为

(2)

其中,ns为所有评论文本的条数;kis为第i个特征词在第s条评论文本中出现的次数。

特征词频次从所有评论文本中对特征词进行了全面的统计,是后续计算、分析与特征词相关统计参量的基础。

3.2特征词情感评分

用户对产品给出的反馈与评价,在评论文本中通常表现为特征词之间的修饰、描述等形式。通过对评论文本的分词结果分析可知,特征词之间的修饰、描述形式通常表现为

{程度副词,情感词,特征词}

其中,程度副词修饰情感词,程度副词和情感词一起修饰特征词,表达用户对产品特征词的主观感受或评价。

通常,程度副词和情感词都是非结构化的文本描述形式,表达的情感强弱程度也各不相同。为此,本文中将情感词分类为褒义情感词(P)、贬义情感词(N)以及中性情感词(M)。根据情感词的极性(P或N)及其情感强度分类,分别设置1、3、5、7、9五个分值,强度依次增强。同样,程度副词根据其强度分类,分别设置2、4、6三个分值,强度依次增强。中性情感词如大、小、多、少,与不同的产品特征词结合可能产生不同的表达结果,难以判断其褒贬义,为此结合整条评论文本的语境,将所有情感词(包括褒义和贬义)的综合得分作为被中性情感词修饰的特征词i的情感得分。

基于此,特征词i的情感评分计算模型为

其中,SFi为第i个特征词Fi的情感评分;SFi_P为第i个特征词Fi在褒义评论文本中的情感评分;SFi_N为第i个特征词Fi在贬义评论文本中的情感评分;SFi_M为第i个特征词Fi在中性评论文本中的情感评分;a、b、c分别为与Fi有关的褒义评论的条数、贬义评论的条数、中性评论的条数;SPx为第x条褒义评论中距离Fi最近的情感词的分值;SPxA为第x条褒义评论中修饰最近情感词的程度副词的强度;SNy为第y条贬义评论中距离Fi最近的情感词的分值;SNyA为第y条贬义评论中修饰最近情感词的程度副词的强度;pz为针对特征词Fi的第z条中性评论中褒义情感词的个数;nz为针对特征词Fi的第z条中性评论中贬义情感词的个数;SMz_Pz1为第z条中性评论中第z1个褒义情感词的情感分值;SMz_Pz1A为第z条中性评论中修饰第z1个褒义情感词的程度副词的强度;SMz_Nz2为第z条中性评论中第z2个贬义情感词的情感分值;SMz_Nz2A为第z条中性评论中修饰第z2个贬义情感词的程度副词的强度。

产品特征词的情感评分综合反映了用户对产品特征词的情感倾向性及其程度,是制造企业确认关注目标、分析关联因素、实施定量管理的基础。

4 产品特征词关联模型构建

产品特征词关联模型以产品基础结构为框架,将从评论文本中挖掘的特征词,根据其内容与类型,分别在产品基础结构中找到对应者,或将其添加到相关的节点(产品、部件、零件)中。

基于分词结果和产品特征词构建产品特征词关联模型的算法流程如图7所示。

图7 构建产品特征词关联模型的算法流程Fig.7 Algorithm workflow of constructing correlationmodel among product features

在读取和构建特征词之间关联关系的过程中,如果当前构建的产品特征词之间的关联关系在前面的过程中已经构建并存在,则这对关联关系的数量将累加到前面的数据中;如果不存在,则其数量赋为初始值。产品特征词关联模型中,特征词之间的数据结构为一个四元组结构,如下所示:

PSFij=[Fi,Fj,Num,Sco]

其中,Fi为关联单元中的父节点(即第i个特征词);Fj为关联单元中的子节点(即第j个特征词);Num为关联单元中第j个特征词在整个评论文本中出现的频次;Sco为关联单元中第j个特征词在整个评论文本中的情感评分。

基于图7描述的算法流程,将原本分散在不同评论文本中的特征词及其关系进行归类和集中,形成了复杂、完整的产品特征词关联模型,为基于评论文本挖掘的综合管理与应用提供了模型和数据基础。

5 关键影响特征词推理

基于特征词提取、特征词频次与情感得分计算,并通过构建的产品特征词关联模型,可以方便地确定用户对产品特征词的关注或评价状况。针对用户评价不理想(情感评分计算较低)的产品特征词,有效确定关键的影响因素,能够为制造企业或销售商的管理工作提供重要指导依据。贝叶斯定理为利用搜集到的信息对原有判断进行修正、推理提供了有效手段。以产品特征词关联模型的结构和数据为依据,基于贝叶斯的关键影响产品特征词推理过程的数学描述如下。

关于一组变量X={X1,X2,…,Xn}的贝叶斯网络包括两个部分:①表示X中变量条件独立的网络结构S;②与每一个变量相联系的局部概率分布集合P。如果以Xi表示变量以及该变量对应的节点,Xj表示S中Xi的父节点,则在父节点的客户评价不理想(情感得分较低,N)的情况下,由各子节点造成的可能性计算模型如下:

(2)

其中,P(Xi=L)为所有用户评论中,对产品特征词Xi不满意(L)的评论比例,即

(3)

其中,n(r,Xi)为第r条评论中,包含特征词Xi的次数;m(r,Xi,L)为第r条评论中,包含特征词Xi且对其评价为负面(L)的次数;Q表示评论文本的总数。

同时,P(Xj=N|Xi=L)为某一子节点特征词Xi评价为负面(L)时,父节点特征词Xj的用户评价不理想(N)的概率。结合产品特征词关联模型,P(Xj=N|Xi=L)计算模型为

P(Xj=N|Xi=L)=
∑P(Xj=N|Xi,…,Xk)P(Xi=Γ)Γ=L,M,H,…,
P(Xk=Γ)Γ=L,M,H

(4)

其中,P(Xj=N|Xi,…,Xk)描述子节点(Xi,…,Xk)分别获得肯定(H)、否定(L)和中性(M)评价时,父节点特征词Xj的用户评价不理想(N)的概率。这些子节点分别获得肯定(H)、否定(L)和中性(M)评价时的概率和,表示子节点特征词Xi评价为负面(L)时,父节点特征词Xj的用户评价不理想(N)的概率,即P(Xj=N|Xi=L)。

基于产品特征词关联模型的结构及其数据,可以方便地统计这些子节点特征词状态的概率及其对父节点特征词状态影响的概率。因此,通过式(2)~式(4)可以实现关键影响特征词的推理。

6 应用案例

为了说明上述原理与方法的可行性,以国内某电子通信产品xx F2为例,从中关村、京东和苏宁三个电商平台,分别用网络爬取工具火车采集器和GoSeeker(由于不同电商平台的网页结构不一样,所以分别采用了不同的网络爬取工具)抓取了12 955条(其中,中关村772条,京东7392条,苏宁4791条)产品评论文本记录,并采用ictclas和ltp软件工具进行分词、句法分析。结合CRF的应用需求设计了产品特征词提取规则及其模板,并开发了产品特征词提取及关联模型构建系统。

产品特征词是所有分析与应用工作的基础,本文专门设计了特征词提取规则及其模板。为了验证其有效性,将基于本文提出的特征词提取规则及其模板提取得到的产品特征词结果,与JAKOB等[7]的方法(与本文的研究思路最为接近)提取得到的产品特征词结果进行试验验证与比较,采用通用评价指标:准确率(P)、召回率(R),以及F值为衡量标准。设计验证实验如下:将5000句实验语料分成5个子集,并分别编号为1、2、3、4、5,每个子集均包含1000句产品评论文本。采用5折交叉验证法,每次以4个子集作为训练集,1个子集为测试集,交叉重复5次,保证每次测试集是不同的子集。产品特征词提取的各项指标分别如表1所示。可以看出,运用本文中提出的方法,产品特征词提取过程的F值达到54.51%,高于Jakob方法的50.63%,说明本文中提出的产品特征词提取规则及其模板设置是合理的。

表1 两种产品特征词提取方法的实验结果

在产品特征词提取、同义词/近义词处理[1,9,12]的基础上,结合特征词频次、情感评分计算及其分类,基于图7描述的算法流程,构建了产品特征词关联模型如图8所示,表达了用户对各级产品特征词的关注、偏好、评价等定量信息。值得注意的是,父节点与其所有子节点之间在数据(频次、情感评分)上并不满足叠加特性,即所有子节点的相关数据之和并不等于父节点的对应数据。这与实际情况是符合的,因为产品零部件也作为产品评论文本中的特征词,其数据是根据产品零部件名称特征词在客户评论文本中出现的频次及客户对其评价计算得到的,而表征功能、性能、可用性、服务的子节点特征词,也是根据其在客户评论文本中存在情况计算得到的,两者之间不一定同时出现。因此,父子节点之间的相互关联与影响程度需要另行计算分析。

图8 xx F2产品特征词关联模型Fig.8 Product feature correlation model of xx F2

针对情感评分不理想的产品特征词,提出基于贝叶斯网络推理关键影响特征词。根据贝叶斯网络的推理需要,基于产品特征词的频次与情感评分数据,构造了产品特征词之间相互影响关系的概率表(表2),由于篇幅限制,只给出了部分节点之间的条件概率。

表2产品特征词之间相互影响关系的概率表(部分)

Tab.2Possibilityformofmutualinfluencerelations
amongproductfeatures(partial)

以图8中产品特征词“屏幕”(情感评分仅为92)为例,结合表2中的数据,通过式(1)~式(3),分别计算与产品特征词(父节点)“屏幕”关联的产品特征词(子节点)“分辨率”“灵敏度”“材料”,造成用户对特征词“屏幕”评价不理想的概率为:0.437、0.314、0.249。由此可知,针对产品xx F2,造成用户对其产品特征词“屏幕”不太满意,最可能的因素是“分辨率”。因此,制造企业需要对产品屏幕的“分辨率”进行改进和完善,从而提高产品的客户满意度。同样,其他产品特征词之间的相互关联与影响情况,也可以通过这种方式计算。

7 结论

本文以文本挖掘为手段,基于CRF原理及其应用需求,在传统词形、词性的基础上,综合考虑依存关系、控制词及其类型,以及指定句子结构中的具体内容,设计了产品特征词提取规则单元及其模板,可以有效提取特定语言表达习惯与方式中的内容,提高了产品特征词提取的效率。在此基础上,构造了特征词频次及其情感评分的计算模型,为产品特征词的定量描述提供了参考。进一步地,构建了产品特征词关联模型,将原本分散在产品评论文本中的特征词进行归类与集中;基于贝叶斯网络实现了对用户评价不理想的产品特征词的关键影响因素进行推理,从而可以深入洞察产品特征词之间的关联与影响机制,为产品设计者、制造者或零售商的精细化管理提供依据。

然而,基于中文自然语言的处理和应用是一个复杂、广泛的课题,本文只作初步探讨,相关内容还需进一步研究和完善,特别是在产品特征词挖掘的准确率、产品特征词中同义词/近义词处理、评论文本中新产生的特征词及其与现有特征之间的关系、产品特征词之间的语义关系等,都需要进一步研究,这是提高基于评论文本挖掘的工程应用价值的关键。

[1] 王永,张勤,杨晓洁. 中文网络评论中产品特征提取方法研究[J].情报分析与研究,2013,12:70-73.

WANG Yong, ZHANG Qin, YANG Xiaojie. Research on the Method of Extracting Features from Chinese Product Reviews on the Internet [J]. Intelligence Analysis and Research, 2013, 12: 70-73.

[2] JIN J, JI P, GU R. Identifying Comparative Customer Requirements from Product Online Reviews for Competitor Analysis [J]. Engineering Applications of Artificial Intelligence, 2016,49: 61-73.

[3] RAVI K V , RAGHUVEER K. Web User Opinion Analysis for Product Features Extraction and Opinion Summarization [J]. International Journal of Web amp; Semantic Technology, 2012,3(4): 69-82.

[4] HU M, LIU B. Mining Opinion Features in Customer Reviews [C]// National Conference on Artificial Intelligence. San Jose, 2004:755-760.

[5] WEI C P, CHEN Y M, YANG C S, et al. Understanding What Concerns Consumers: a Semantic Approach to Product Feature Extraction from Consumer Reviews [J]. Information System amp; E-business Management, 2010,8(2):149-167.

[6] 余传明,陈雷,张小青.基于支持向量机的产品属性识别研究[J].情报学报,2010,29(6):1038-1044.

YU Chuanming, CHEN Lei, ZHANG Xiaoqing. Mining Product Features from Free-text Customer Reviews: an SVM-based Approach[J]. Journal of the China Society for Scientific amp; Technical Information, 2010,29(6):1038-1044.

[7] JAKOB N, GUREVYCH I. Extracting Opinion Targets in a Single- and Cross- Domain Setting with Conditional Random Fields [C]// Conference on Empirical Methods in Natural Language Processing. Cambridge,2010:1035-1045.

[8] SU S H, LYNN K T. Extracting Product Features and Opinion Words Using Pattern Knowledge in Customer Reviews [J]. The Scientific World Journal, 2013: 394758.

[9] 李实,叶强,李一军, 等. 中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报, 2009,12(2):142-152.

LI Shi, YE Qiang, LI Yijun, et al. Mining Features of Products from Chinese Customer Online Reviews [J]. Journal of Management Science in China, 2009,12(2):142-152.

[10] LI Shi, YU Ming. Mining Frequent and Infrequent Features from Chinese Customer Reviews [J]. Journal of Theoretical and Applied Information Technology, 2013, 48(1): 193-199.

[11] JIANG T J, SHIH C W, YANG T H, et al. Enhancement of Feature Engineering for Conditional Random Field Learning in Chinese Word Segmentation Using Unlabeled Data [J]. Computational Linguistics amp; Chinese Language Processing, 2012,9: 45-86.

[12] 祖李军,王卫平. 中文网络评论中提取产品特征的研究[J].计算机系统应用, 2014,23(5):196-201.

ZU Lijun ,WANG Weiping. Research of Extracting Product Features from Chinese Online Reviews [J]. Computer System Applications, 2014,23(5):196-201.

[13] 马柏樟,颜志军. 基于潜在狄利特雷分布模型的网络评论产品特征抽取方法[J].计算机集成制造系统, 2014,20(1):96-103.

MA Baizhang,YAN Zhijun. Product Features Extraction of Online Reviews Based on LDA Mode [J]. Computer Integrated Manufacturing Systems,2014,20(1):96-103.

[14] 徐建民,王金花,马伟瑜. 利用本体关联度改进的TF-IDF特征词提取方法[J]. 情报科学,2011,29(2):279-283.

XU Jianmin, WANG Jinhua,MA Weiyu. Improved TF-IDF Feature Selection Method Based on Ontology Relative Degree [J]. Intelligence Sciences, 2011,29(2):279-283.

[15] LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco, 2001:282-289.

[16] VELARDI P, STILO G, TOZZI A E, et al. Twitter Mining for Fine-grained Syndromic Surveillance [J]. Artificial Intelligence in Medicine, 2014, 61(3):153-163.

[17] WU Mingxing, WANG Liya, LI Ming, et al. An Approach of Product Usability Evaluation Based on Web Mining in Feature Fatigue Analysis [J]. Computers amp; Industrial Engineering, 2014,75(1): 230-238.

(编辑王旻玥)

FeatureExtractionandCorrelationModelConstructionofOnlineProductReviewsandItsApplications

YU Qiwei1XIAO Ying1LIN Jing1XU Xinsheng1WANG Qinglin1ZHANG Fei2

1.Institute of Industrial Engineering,China Jiliang University,Hangzhou,310018 2.Institute of Mechanical Design, Manufacturing and Its Automation,China Jiliang University,Hangzhou,310018

Online product reviews were the feedback of customer valuing a product. It was an urgent problem for manufacturers and retailers to mine valuable informations effectively and timely from online product reviews with the goal of gaining competitive advantages. Considering comprehensive factors such as word, part-of-speech (POS), dependency relations, governing word and its opinion description, the unit of rule for extracting product features and the rule template were designed. Product features were extracted from online reviews effectively through conditional random field (CRF) theory, and the product features were classified. The quantitative calculation models of product features including frequency and sentiment score were proposed. A correlation model among product features was established based on the description contents of product features and their classifications. On the basis of these, an approach of inferring the key influence factors among product features was presented based on Bayes network. Finally, a case study was performed to verify the feasibility of the methods mentioned above by using a mobile phone as an example, and the results may be used as evidence to implement precision management for manufacturers and retailers.

text mining; feature extraction; emotional scoring; correlation model construction; influence factor deducing

TP14;TH128

10.3969/j.issn.1004-132X.2017.22.011

2016-11-23

国家自然科学基金资助项目(51405462,51305417);浙江省自然科学基金资助项目(LY16G010006);浙江省科技厅公益性技术应用研究计划资助项目(2014C31117)

余琦玮,女,1978年生。中国计量大学工业工程研究所讲师。主要研究方向为数据挖掘、人因工程。肖颖,女,1978年生。中国计量大学工业工程研究所讲师。林静,女,1993年生。中国计量大学工业工程研究所硕士研究生。徐新胜(通信作者),男,1976年生。中国计量大学工业工程研究所副教授。E-mail: lionkingxxs@cjlu.edu.cn。王庆林,男,1995年生。中国计量大学工业工程研究所硕士研究生。张飞,女,1978年生。中国计量大学机械设计制造及其自动化研究所副教授。

猜你喜欢
特征词关联节点
CM节点控制在船舶上的应用
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
基于类信息的TF-IDF权重分析与改进①
基于AutoCAD的门窗节点图快速构建
概念格的一种并行构造算法
结合概率路由的机会网络自私节点检测算法
一种面向财务文本分类的TF-IDF改进算法
“一带一路”递进,关联民生更紧
基于改进TFIDF算法的邮件分类技术
OPEN:一个基于评论的商品特征抽取及情感分析框架