吴东胜,王忠群,蒋胜,皇苏斌
(安徽工程大学管理工程学院,安徽 芜湖 241000)
基于评论的商品改进需求获取方法研究
吴东胜,王忠群,蒋胜,皇苏斌
(安徽工程大学管理工程学院,安徽 芜湖 241000)
基于在线商品评论文本中产品特征与观点词的句法依存关系,综合关注度与观点值以及特征修饰词并考虑相关副词对观点词的影响,提出了一种结合用户的关注度和观点值以及特征修饰词来获取商品改进需求的方法。研究表明,该方法能够较好地获取商品的改进需求,可以为企业提供产品设计改进的方向。
在线商品评论;商品改进需求;产品特征
随着在线购物成为人们的一种常见的消费方式,在线商品评论已经成为商家或者企业进行商品改进的信息重要来源。相对传统商品改进需求获取方式,网络作为一个相对比较自由、宽松的环境,更能激发用户对商品改进的表达欲望。商品改进需求的挖掘不但能够帮助企业改进产品提升用户的满意度,而且还能为企业未来新产品的设计、研发提供一个明确的方向。
在评论有用性的研究方面, Hu等[1]首先将基于关联规则的Apriori算法应用于英文产品评论的特征提取。由于中英文在文化、语言结构以及语法上的差异,导致很多针对英文评论的研究无法应用在中文评论中,在此基础上,李实等[2]针对中文语言的相关特点,提出了中文网络评论的特征提取方法;在面向篇章层级的情感分析中,徐芳平[3]利用Apriori的算法对在线评论进行产品属性提取,再利用模糊的方法计算出各属性的评价值,最后分析得到产品的改进需求,从而辅助产品进行再设计;姜巍等[4]提出了一种面向用户需求的评论有用性分析方法,该方法采用复杂网络的相关知识;采用本体和条件随机场融合的特征提取方法并结合情感分析技术;崔建苓等[5]提出了一种RERM的需求获取方法,并通过实验验证了该方法能够有效提升需求获取的效率。
事实上,商品的改进需求获取并非仅仅依靠用户对其的情感倾向(观点值)——即情感倾向呈贬义的产品特征越有可能成为商品的改进需求,还应考虑用户的关注度,即关注度大且情感倾向呈贬义的产品特征才是商品最需要改进的。为此,笔者基于产品特征与观点词的句法依存关系,综合关注度与观点值以及特征修饰词并考虑相关副词对观点词的影响[6],提出了一种获取商品改进需求的方法。
商品改进需求获取方法框架主要包括数据预处理、结合用户关注度与观点值的改进需求获取、结合特征修饰词的改进需求获取等部分,如图1所示。
1.1 数据预处理
1)数据收集与清洗 剔除评论中一些无关的信息(如广告等),对同一用户多次重复的评论进行删除。另外,对产品评论中包括一些网络用语人工将其转化为通俗易懂的文字,如“稀饭”转化为“喜欢”等。
2)分词、词性标注以及句法依存分析 使用哈尔滨工业大学社会计算与信息检索研究中心所提供的语言处理平台(LTP)对评论进行分词、词性标注以及句法依存分析,结果以XML文件的形式进行存储。
图1 商品改进需求获取方法框架
1.2 结合用户关注度与观点值的改进需求获取
图2 评论“手感还行,像素一般,充电非常快。”的句法依存分析视图
1)产品特征词与观点词识别 在对商品评论进行句法依存分析的基础上,会发现在线商品的特征词与观点词之间存在着一定的句法关系。
例如,评论“手感还行,像素一般,充电非常快。”该评论的句法依存分析视图如图2所示,各种分词标识符代表的含义如表1所示。
表1 分词标识符号说明
根据上述视图的分析可以构建相应的识别规则:
规则1 一个单句中满足SBV(主谓关系)、CMP(动补关系)或者ATT(定中关系)依存结构关系,那么句中对应的名词(或动名词)或动词为候选特征词,对应的形容词为观点词。
对上述识别出的产品特征词利用《同义词词林扩展版》的层级结构可以获取候选特征词之间的同义关系并对其进行相应的聚类合并,对于同一主题下的产品特征统计出所有观点词的数量,以观点词的数量作为用户对该产品特征的关注度,形成<产品特征,观点词,关注值>三元组的形式。
2)观点词的相关修饰词识别 对于在线商品评论中观点词相关修饰词的识别仍然利用句法依存关系,如评论“外观很漂亮,但拍照不清楚。”的句法依存分析视图如图3所示。
类似构建规则如下:
规则2 一个单句中满足ADV(状中关系)依存结构关系,那么句中对应的副词为观点词的修饰词。
图3 评论“外观很漂亮,但拍照不清楚。”的句法依存分析视图
3)观点词的褒贬程度计算 观点词的褒贬程度是由观点词与一些褒贬程度十分明显的基准词之间的紧密关系决定的,与褒义基准词相似度越大,词汇越具有褒义倾向,反之具有贬义倾向。可以事先选取好k对具有代表性的基准词(其中k个褒义词,k个贬义词),然后利用改进的基于知网的词汇褒贬计算公式计算出词汇的褒贬程度。具体计算公式如下:
(1)
式中,k表示k对基准词,每对基准词包括一个褒义词和一个贬义词,褒义基准词为key-pi;贬义基准词为key-nj;α和β是可调节参数,根据给定的基准词对,W可通过对α和β的调节提高算法的准确率;Sim(key-pi,W)和Sim(key-nj,W)分别为基于知网的观点词与褒义基准词和贬义基准词的相似度。
4)观点值的计算 产品评论中产品特征的观点值通过观点词来计算。修饰每个产品特征的观点词不止一个,最终产品特征的观点值可以用所有修饰其的观点词的褒贬程度值相加,并取平均值来计算。在进行观点值计算时,考虑几种词性的词对其计算的影响:一种是程度或频度副词;另一种是否定词。程度副词是指用来修饰形容词的词汇,如“十分流畅”,其中“十分”就为程度副词,“流畅”则为形容词。对于这类有程度副词或否定词修饰的观点词称为复合观点词。因此,产品评论中的观点词划分为以下几类分别计算其相应的褒贬程度:若观点词仅由形容词构成,褒贬程度计算直接利用式(1);若观点词为复合观点词,其结构为“程度副词+形容词”,褒贬程度计算使用式(2):
(2)
式中,S1为程度副词的修饰强度值;S2为根据式(1)计算出的形容词的褒贬倾向值; Δμ为位移指数,不妨取为0.5。如W为“非常流畅”,可先利用式(1)计算出“流畅”的褒贬倾向值为S2=0.4315,“非常”的修饰强度值为S1=0.7,分别代入式(2)中即可得到“非常流畅”的褒贬倾向SW=0.50。为了计算方便,可以将修饰词分为相应的等级,每级有一个基准词,如表2所示。
表2 修饰词基准词
如果遇到其他的修饰词时,可先根据相似度计算公式计算其与基准修饰词的相似度,然后选取与其相似度最大的基准修饰词的修饰强度为自身的修饰强度。若观点词为“频度副词+形容词”结构的复合观点词,计算方法如上类似;若观点词为“否定词+形容词”结构的复合观点词,如W为“不漂亮”,先计算出形容词“漂亮”的褒贬程度S1,则这类复合观点词的褒贬程度为:
SW=-S1
(3)
经过以上步骤,最终形成<产品特征,观点词,关注值,观点值>四元组。
根据以上分析,可获得每个产品特征的关注值与观点值,结合两者最终形成相应的改进需求(即选取关注值大,观点值小(包括负值)的产品特征作为改进型需求对象),并将其添加到改进需求列表中。
1.3 结合特征修饰词的改进需求获取
1)基于句法依存关系的名词短语识别 在线商品评论中由2个或3个相邻的词构成且具有名词功能的短语称为名词短语。由于由3个词构成的名词短语较少,因此,笔者主要考虑2个相邻的词构成的名词短语,基于句法依存关系构建在线商品评论中名词短语的识别规则。商品评论中名词短语的组成主要有2种形式:一种是特征名词的修饰词为名词,另一种特征名词的修饰词为动词。如评论“屏幕分辨率很高,运行速度很快。”的句法依存分析如图4所示。
图4 评论“屏幕分辨率很高,运行速度很快。”的句法依存分析视图
类似构建识别规则如下:
规则3 一个单句中,相邻的2个名词(动词+名词)满足ATT(定中关系)依存结构关系,那么这2个词构成一个名词性短语。
2)中文名词短语的分类 在中文中,名词与名词构成的名词短语从语义上看,主要存在2种关系:一是隶属关系,一是类属关系。隶属关系是指中心语名词所代表的事物,隶属于定语名词所代表的事物;类属关系是指定语名词所代表的事物是中心语名词所代表事物的性质、品种、原料、燃料、动力、用途、产地、喻义等的分类标志,如“金属外壳”、“移动硬盘”等。
3)包含类属关系的名词短语的提取 根据上述对名词短语的提取和分类,将提取到的具有类属关系的名词短语加入到改进型需求列表中。如短语“柔性屏幕”,“柔性”和“屏幕”构成的是类属关系,包含了“屏幕”的某种改进需求。这种包含类属关系的名词短语的改进型需求将用户对产品特征的观点倾向转变为给出产品特征的具体的、明确要求,因而对商家或者产品生产者来说则更具有参考价值。
利用八爪鱼软件从天猫商城上抓取了魅族MX5手机的600条用户评论作为试验语料。对评论进行相应的筛选,最终获得有效评论516条。对于评论文本的分词采用哈尔滨工业大学语言云(http://www.ltp-cloud.com/)并使用Python调用API,结果以XML文件的形式显示出来。对于其中相关词的识别则根据相应的识别规则利用Dom4j解析方法并结合Xpath技术对XML文件进行解析。
2.1 产品特征关注值列表
根据对XML文件的解析并统计相关观点词的数量,最终得到关注值靠前的12个产品特征,列于表3中。
2.2 产品特征观点值列表
对修饰产品特征的观点形容词进行褒贬倾向的量化,其具体的数值区间为[-1,1]。其中,负数代表贬义倾向,正数代表褒义倾向,且绝对值越大,情感的强度越明显。产品特征关注值-观点值列于表3中。
表3 添加基准观点词的产品特征关注值-观点值列表
通过表3中相关数据可以看出,关注度第4的“快充”和第5的“物流”的观点值较低,但是考虑到在汉语中同一个表示观点的形容词在不同的语境中可能代表不同的情感倾向,例如“物流非常快,很给力。”和“电池不耐用,耗电太快了。”这2条评论中,都提及了观点词“快”,显然两者表现出的情感是不同的,前者是一种正向的评价,而后者是一种负向的评价。因此,在利用观点词情感倾向计算方法时可能就会出现观点值计算不准确。例如,利用笔者的观点词情感倾向计算公式计算出“快”一词的观点值为0.129,对照上面“物流”这一特征的观点值0.189,就实际情况来说,其实“物流”这一特征整体是令人满意的,无需进行相应的改进。为了使产品特征的观点值能够反映出实际的情况,笔者对产品特征设定一些常见的描述产品特征的基准观点词,根据这些基准观点词的观点值来判断该产品特征的观点值处在一个怎样的观点值区间,从而为企业或者商家进行相应的产品改进提供一定的依据。
根据表3的内容并结合观点值与基准观点值得值可以看出,“系统”这一产品特征关注值最大,同时观点值与基准观点词的观点值比较较低,因此在“系统”这一产品特征还需进一步的改进。此外,“指纹解锁”与“电池”这2个产品特征关注值不是很大,但是其观点值与基准观点词的观点值相比较低,因此也需要进一步的改进。
2.3 结合特征修饰词的改进型需求
由于在线商品评论中包含类属关系的名词词组较少,在利用句法依存关系进行识别时,需要一定数量的评论文本,因此笔者在上述数量的基础上进行了扩充,最终获得有效的评论文本1536条。根据相应的识别规则,最终得到具有类属关系的名词词组:小屏手机、金属外壳、光学防抖、双色温闪光灯、激光对焦、北斗导航、分屏技术。
根据魅族MX5手机说明书,除去已存在的产品特征或属性(红色部分为已存在的产品特征),最终得到该手机的改进型需求为“小屏手机”、“光学防抖”。根据上述改进需求,企业可以开发屏幕尺寸更小的手机。另外,对手机摄像头增加“光学防抖”功能。
在需求呈现多样化的趋势下,如何快速挖掘在线商品的改进需求并反馈于企业以此来提升用户的满意度显得尤为重要。笔者在对在线商品网络评论进行句法依存分析的基础上,构建产品特征与观点词识别规则,形成产品特征的关注度与观点值。在对观点值计算时考虑了修饰词对观点词的影响,结合关注值与观点值来构建改进需求挖掘模型,从特征修饰词的角度出发获取一些更加具体的改进需求,并且验证了提出商品改进需求获取方法的有效性。笔者所提出的方法在进行产品特征和观点词识别时,需要根据相应的规则,因此,对在线商品评论的格式要求比较规范且不能够识别出评论中包含的隐性产品特征。此外,试验选取的有限数据可能导致结果的局限性,这些都是今后需要进一步研究的问题。
[1]HuM,LiuB.MiningandSummarizingCustomerReviews[A].Proceedingsofthe10thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining(KDD'04)[C].NewYork:ACM, 2004: 168~177.
[2]李实, 叶强, 李一军.中文网络客户评论的产品特征挖掘方法研究[J].管理科学学报, 2009(2): 142~152.
[3]徐芳平. 基于在线评论的产品再设计需求研究[D].大连:大连理工大学, 2012.
[4]姜巍, 张莉, 戴翼,等.面向用户需求获取的在线评论有用性分析[J].计算机学报, 2013, 36(1): 119~131.
[5]崔建苓, 杨达, 李娟.RERM: 一种基于评论挖掘的需求获取方法[J].计算机应用与软件, 2015, 32(8): 28~33.
[6]张晓勇, 章成志, 周清清. 基于电商产品评论的产品概念层次体系自动构建研究[J]. 情报理论与实践, 2016, 39(6): 120~125.
[编辑] 洪云飞
2016-11-18
国家自然科学基金项目(71371012);教育部人文社会科学规划项目(13YJA630098)。
吴东胜(1990-),男,硕士生,现主要从事电子商务方面的研究工作。
王忠群(1965-),男,硕士,教授,现主要从事信息管理与信息系统方面的教学与研究工作,1144376229@qq.com。
TP311.52
A
1673-1409(2017)05-0044-05
[引著格式]吴东胜,王忠群,蒋胜,等.基于评论的商品改进需求获取方法研究[J].长江大学学报(自科版),2017,14(5):44~48.