王安宁,张 强,彭张林,倪 鑫
(1.合肥工业大学管理学院,安徽 合肥 230009;2.过程优化与智能决策教育部重点实验室,安徽 合肥 23009)
在竞争激烈的细分市场中,产品或服务的成功主要依赖于如何满足用户的需求[1-2]。为了避免单纯的价格竞争,企业必须从用户需求出发进行下一代产品的改进与创新[3]。Tietz等[4]已经证实将用户纳入到产品的设计过程比单纯地将其作为产品的消费者更加有效,特别是产品领先用户的参与,能够帮助企业及时把握市场需求动向,获取更多的产品创新源泉[5]。因此,用户作为产品使用者参与产品的设计与开发过程已经成为产品创新的发展趋势。其中,准确地获取用户的需求是产品设计的关键环节。传统的问卷调查和用户访谈等用户需求获取方法存在投入成本高、花费时间长,样本量较小等诸多局限[6]。随着在线社交媒体的快速发展,越来越多的用户倾向通过在线社交媒体表达自己的消费体验。研究表明77%消费者在购买之前会浏览在线评论,并且相比个人推荐,75%消费者更加相信在线评论[7]。在线评论成为了用户购买决策的关键影响因素[8-11]。
相比较于传统的用户需求获取方法,从在线评论中获取用户需求存在如下优势:1)数据来源于真实用户的主动分享,并不依赖于被动的调研和访谈[8];2)样本量大,而且数据易获取[12];3)数据内容丰富,包含了各种产品特征。这些在线评论包括用户对产品多个特征的评价,并带有正面或负面的态度。因此,社交媒体中的在线评论成为企业挖掘用户需求的重要信息资源[13-16]。当前研究工作围绕着产品特征的提取[17]、情感分析[18]和重要性识别[19-20]等方面,采用了计量经济学等模型对在线评论中产品特征偏好进行合计,并反馈到下一代产品的开发过程[9,21]。
从在线评论中提取产品特征是获取用户需求偏好至关重要的一步。产品特征一般可分为两类,一类是由企业提供的产品结构和性能,一类是用户提出的产品属性[22]。Hu和Liu[23]认为产品特征通常为名词或名词短语,提出使用词性分析方法。此外,分析特征的情感可以帮助企业明白产品的成功和失败,以便更好地适应市场需求的改变。Tuarob和Tucker[24]提出利用情感分析量化产品的市场支持度,识别成功和失败的产品,并将产品特征自动分成两类:满意特征和抱怨特征。
用户偏好识别对于理解用户需求至关重要,在企业的产品规划以及产品设计过程中扮演重要角色。一些学者采用计量经济学和统计学方法确定不同产品特征的偏好程度[25-26]。为了缩短数据收集时间和降低调研成本,Fader和Hardie[27]利用销售点数据提出离散选择模型计算不同产品特征的用户偏好。近几年,在线评论成为获取用户偏好的一种重要信息资源,对企业的市场定位、市场细分、新产品开发以及广告投放都必不可少[28]。Decker等[8]基于在线评论的打分行为提出了一种计量经济学的框架去计算产品特征的偏好系数。
目前,相关研究工作主要侧重于用户综合偏好的识别,忽视了区域特征对用户偏好的影响。区域特征作为企业区域化经营策略以及个性化产品设计需要考虑的重要维度,是用户偏好识别的关键要素。以汽车产品为例,用户偏好受到区域地理环境的影响,山地地区的用户更加重视汽车的动力效果。此外,大城市和中小城市用户的需求则可能会由于消费观念的不同而产生差异。例如大城市用户节能环保意识较好,可能更加重视汽车产品的油耗性能。因此,相比较于不考虑区域特征得到的用户综合需求偏好,如何识别显著的区域需求偏好成为了在线评论分析的关键问题之一。用户需求偏好一般包括产品需求偏好和特征需求偏好两个层次,产品需求偏好表现为用户对产品的满意度[24],特征需求偏好表现为用户对产品特征的情感极性[19-20]。
鉴于此,本文将利用文本挖掘方法提取产品评论中的“特征-观点”对,并识别产品特征的情感极性(正面或者负面)。然后,基于特征观点计算每条评论的产品满意度。最后,利用卡方检验模型和方差分析模型分别验证特征情感极性和产品满意度与区域特征的关联关系,并发现其中显著的区域需求偏好。
目前研究大多选用易于量化的指标来度量产品满意度,例如用户评分等级、评论数量等,忽视了产品评论内容中各维度的信息。由于产品具有多特征的特点,用户对各产品特征的态度构成了用户对产品的满意度。基于这种考虑,本文提出了一种基于用户对产品特征态度的方法量化产品满意度。此外,由于不同区域的人文、经济以及地理环境都存在一定的差异,导致用户对产品性能的偏好并不相同。因此,对于同一款产品在不同区域受欢迎程度是存在差异的。为此,本文定义如下三个子问题:(1)构建面向特征的产品满意度计算方法;(2)构建卡方检验模型识别产品特征情感极性与区域特征的关联关系;(3)构建方差分析模型识别产品满意度与区域特征的关联关系。
对于区域特征,本文选取了城市等级和城市地区两个维度,城市等级主要是反映区域的经济,而城市地区主要是反映是区域的人文与环境。其中对于城市等级,本文根据2016中国城市等级划分设置为{一线城市,二线城市,三线及以下城市}。而对于城市地区,根据中国自然地理特征将城市地区划分为七大区域,包括{华东,华南,华北,华中,东北,西北,西南}。
给定产品评论集合R={r1,r2,…,rn},其中每条用户评论可以看作为一组“用户—特征—观点”对的集合,即:rk={(uk,fj,oj)|fj∈rk}。
其中,元素(uk,fj,oj)表示用户uk对特征fj的观点态度为oj。研究表明在用户评论中产品特征通常是名词或名词短语[23]。本文采用POS标记对用户评论进行词性标注,将名词与名词短语视为
图1 基于在线评论的区域用户需求偏好识别方法架构
特征词的候选集。通过对名词和名词短语进行关联规则挖掘,提取频繁项集,作为新的特征候选集,一般仅考虑频繁一项集和频繁二项集。得到的频繁项还需要进行剪枝,主要是去除单字名词和过滤一些常见名词但又不是产品特征词,例如“问题”、“家人”等[29]。考虑到很多特征词表达的是同一产品特征,例如汽车产品的 “外观”、“外形”、“车身”等特征词反映的都是汽车外观的整体情况。本文利用WordNet同义词词库将特征候选集进行同义词整合,形成产品特征词库[30]。此外,特征的观点词通常都是形容词,并在特征词附近,比如:外观显得大气,车头十分饱满等。本文先根据特征的观点词属于积极词库还是消极词库作为初步的情感极性;再判断是否存在否定或双重否定的情况,如果存在否定,则转换特征观点的情感极性,若是双重否定则不变。
“用户-特征-观点”对(uk,fj,oj)是用户对产品特征表达个人观点。从情感分析角度,一般可分为两个维度来描述用户观点:极性与强度。情感极性是描述用户的正负面态度;情感强度是描述用户态度强弱。用户uk对特征fj的情感极性记为ek(fj),如果情感极性属于积极,则ek(fj)值为1;如果情感极性属于消极,则ek(fj)的值为0。
特征fj的情感强度记为ik(fj),一般分为三个等级:加强型,一般型与削弱型。观点附近出现“非常”、“很”等有加强情感倾向的副词,视为加强型;出现“比较”、“还”等有削弱情感倾向的副词,视为削弱型;没有出现相关副词,视为一般型。对于情感强度的量化,一般采用如下规则[30]:加强型情感,赋值为5;一般型情感,赋值为3;削弱型情感,赋值为1。
用户uk对产品的满意度sk,本文用概率p(sk)表示对产品满意的概率。根据全概率公式:
p(sk)=∑p(sk/fj)p(fj)
(1)
其中,p(fj)为特征fj的权重wj,表示用户uk对特征fj的重视程度。本文考虑情感强度i和描述内容长度l两个因素来衡量特征的权重。为了确保wj的值在0到1之间,可以定义为公式(2):
(2)
(3)
受区域经济、人文以及环境等因素的影响,特征情感极性和产品满意度与区域特征存在一定的关联关系。因此,本节包括两方面内容:(1)构建卡方检验模型识别产品特征情感极性与区域特征的关联关系;(2)构建方差分析模型识别产品满意度与区域特征的关联关系。
特征情感极性是定性变量,属性值只有正面和负面。因此,本文采用交叉表卡方检验识别特征情感极性与区域特征的关联关系。本节以城市等级为例,根据城市等级和特征情感极性,评论被分成6组,如表1。Rk表示城市等级k的评论数量,Ci表示特征情感极性ei的评论数量,nki表示城市等级k,并且特征情感极性ei的评论数量。
表1 城市等级-产品特征交叉表
原假设H0:对于产品p,用户对特征fj的情感极性与用户所在城市等级之间相互独立。
备选假设H1:对于产品p,用户对特征fj的情感极性与用户所在城市等级存在关联关系。
基于原假设H0,得到如下公式:
pki=pkpi
(4)
(5)
(6)
其中,pki表示评论既属于城市等级k,特征情感极性又为ei的概率;pk表示评论属于城市等级k的概率;pi表示特征的情感极性为ei的概率。
Eki表示既属于城市等级k,且对特征fj的情感极性为ei的期望评论数,易得:
(7)
根据卡方检验模型,特征情感极性与城市等级的卡方统计量计算公式如(11)所示:
(8)
本文结合城市等级和城市地区两个区域特征,构建方差分析模型识别产品满意度与区域特征的关联关系。因此,该问题可以分解成三个子问题:(1)识别城市等级与产品满意度的关联关系;(2)识别城市地区与产品满意度的关联关系;(3)识别城市等级和城市地区交互效应与产品满意度的关联关系。
(1)城市等级与产品满意度的关联关系
原假设H0:对于产品p,不同城市等级的产品满意度均值没有差异。
备选假设H1:对于产品p,不同城市等级的产品满意度均值存在差异
(2)城市地区与产品满意度的关联关系
原假设H0:对于产品p,不同城市地区的产品满意度均值没有差异。
备选假设H1:对于产品p,不同城市地区的产品满意度均值存在差异
(3)城市等级和城市地区交互效应与产品满意度的关联关系
原假设H0:对于产品p,城市等级因素和城市地区因素对的产品满意度均值没有交互效应影响。
备选假设H1:对于产品p,城市等级因素和城市地区因素对的产品满意度均值有交互效应影响。
(9)
此外,SSA,SSB,SSAB分别计算如下:
(10)
(11)
(12)
SSE=SST-SSA-SSB-SSAB
(13)
若F≥Fα,拒绝原假设H0,接受备选假设H1。F值越大,说明影响程度越大。通过上述方差分析模型,可以验证区域特征对产品满意度的影响程度以及检验是否存在显著影响,并得出产品满意度与区域特征的关联关系。
表2 方差分析表
注:因素A表示城市等级,因素B表示城市地区;df为自由度,n表示样本总数,SS为方差平方和,MS=SS/df
5.1.1 数据收集与预处理
本文数据来源汽车之家(autohome.com.cn)的口碑,口碑是由购买相应车型的用户发表。本文以瑞虎5车型和艾瑞泽5车型为案例,共获取有效口碑样本4448条。由于汽车产品的层次结构复杂,特征众多。为了便于分析,将评论中的众多特征整合成:外观、空间、内饰、油耗、动力、操控、舒适性和性价比八个特征。根据本文第3节提出的“特征-观点”提取、情感极性判定以及产品满意度计算,得到特征情感极性和产品满意度的结构化数据,如表3所示。
表3 评论的特征情感极性和产品满意度结构化数据
5.1.2 特征情感极性与产品满意度分布
根据产品特征情感极性和产品满意度的结构化数据,统计特征情感极性,如图2和图3所示。其中,艾瑞泽5的空间和外观性能优异,而动力、内饰和油耗的抱怨则较多。瑞虎5的操控、舒适性以及性价比表现突出,而油耗、外观,尤其是空间,负面情感较多。
图2 艾瑞泽5车型产品特征情感极性的分布
图3 瑞虎5车型产品特征情感极性的分布
对于产品满意度的分布,均值越大,说明产品口碑越好。方差越小,说明品牌感知较一致。图4展示了瑞虎5和艾瑞泽5的满意度分布,可以发现瑞虎5车型的满意度大致服从正态分布,均值不大,同时方差也不大,说明口碑一般,用户感知较一致。而艾瑞泽5车型的满意度大致服从线性分布,均值较大,同时方差也较大,说明口碑较好,用户感知存在差异,部分用户的需求偏好没有得到满足。
图4 产品满意度的分布
图5 艾瑞泽5车型不同城市等级的产品特征极性均值
图6 艾瑞泽5车型不同城市地区的产品特征极性均值
图7 瑞虎5车型不同城市等级的产品满意度分布
图8 瑞虎5车型不同城市地区的产品满意度分布
本文主要研究特征情感极性和产品满意度的区域差异。为了便于观察,图5和图6分别展示了艾瑞泽5车型各产品特征情感极性均值在不同城市等级和城市地区的分布差异。从图5可以发现动力、油耗和舒适性在不同城市等级的分布差异较大。其中,对于油耗特征,城市等级越高,情感极性均值越低,这与大城市的交通拥堵和节能环保意识较高相符合。从图6可以发现空间、动力、油耗、操控和舒适性在不同城市地区的分布差异很大,其中,动力和油耗的情感极性均值在西南地区都比较低,说明西南地区的用户对油耗和动力的性能比较重视。
图7和图8分别展示了瑞虎5车型产品满意度在不同城市等级和城市地区的分布差异。可以发现不同城市等级的产品满意度分布差异并不大,而不同城市地区的产品满意度分布存在较大差异,其中西北地区产品满意度均值明显低于其他地区。
5.2.1 特征情感极性与区域特征的关联关系
对于产品特征情感极性与区域特征的关联关系,本文分别建立城市等级和城市地区与产品特征情感极性的卡方检验模型,其检验结果如表4和表5所示。结果发现空间和油耗的情感极性与城市等级的关联程度较大。对于油耗特征,瑞虎5车型和艾瑞泽5车型分别为5.129和12.175,接近或高于5.991。说明油耗在不同城市等级的情感极性分布存在较显著差异。图9展示了瑞虎5和艾瑞泽5不同城市等级的油耗特征正面评论与期望正面评论之差。可以发现两款车型的分析结果比较一致,其中,三线及以下城市的油耗正面情感极性的评论数量明显高于期望值,而一线城市对油耗正面情感极性的评论数量则明显低于期望值。这说明三线及以下城市用户对油耗性能的要求相对较低,而一线城市用户则更加看重油耗性能。
此外,空间和外观的情感极性受城市地区因素的影响显著,尤其是空间特征,瑞虎5和艾瑞泽5的卡方值达到14.134和13.834,都高于12.593。图10展示了瑞虎5和艾瑞泽5不同城市地区的空间特征正面评论与期望正面评论之差。可以发现瑞虎5和艾瑞泽5空间特征的区域偏好并不一致,主要是由于瑞虎5属于SUV车型,而艾瑞泽5属于轿车,两者的用户对空间特征的需求差别很大。对于瑞虎5车型,东北和华南地区的空间特征正面情感极性的评论数量明显高于期望值,而西北地区的正面情感极性的评论数量则明显低于期望值,说明东北和华南地区的用户对瑞虎5车型的空间特征比较满意,而西北地区的用户可能由于对SUV车型空间特征要求相对更高,导致对瑞虎5车型的空间特征还不是很满意。对于艾瑞泽5车型,东北地区的用户对艾瑞泽5车型的空间特征比较满意,而华中地区用户则相对还不是很满意。综合来看,东北地区用户相对来说对两种车型的空间特征需求并不高,而西北地区用户对SUV车型空间要求相对较高,华中地区用户对轿车空间要求相对较高。
表4 瑞虎5车型的产品特征-情感极性区域特征的卡方值
表5 艾瑞泽5车型的产品特征-情感极性区域特征的卡方值
图9 不同城市等级的油耗特征正面评论期望落差
图10 不同城市地区的空间特征正面评论的期望落差
5.2.2 产品满意度与区域特征的关联关系
对于产品满意度与区域特征的关联关系,本文得出瑞虎5和艾瑞泽5车型的方差分析结果分别如表6和7表所示。其中,瑞虎5车型的产品满意度与城市等级的Sig.值为0.660,说明受城市等级的影响较小。而城市地区的Sig.值为0.262,说明一定程度上存在较显著影响。若仅对城市地区与产品满意度的单因素方差分析如表8,发现Sig.的值为0.041,说明城市地区在一定程度上对产品满意度产生了显著影响。同时,艾瑞泽5车型的城市等级和城市地区Sig.的值分别为0.041和0.023,如表7所示。说明艾瑞泽5车型的满意度同时受城市等级和城市地区的显著影响。
5.3.1 特征提取及其情感分析的验证
为进一步说明实验结论的有效性,需要验证产品特征提取及其情感极性判定方法的有效性。本文从在线评论数据中随机抽取50条,进行人工产品特征和情感极性标注,标注结果包含16个特征,117次特征情感极性描述。对于产品特征的提取,在保证准确率不是太低的情况下,召回率要尽可能大,从而保证最终形成的产品特征词库尽可能多地包含用户描述的产品特征。
表6 瑞虎5车型产品满意度的方差分析
表7 艾瑞泽5车型产品满意度的方差分析
表8 城市地区与产品满意度的单因素方差分析结果
特征提取算法中,频繁项集的支持度大小设置决定了特征提取的准确率和召回率。表9显示了不同支持下的特征提取的准确率、召回率以及F1值。随着支持度的增加,准确率呈上升趋势,召回率呈下降趋势,F1值呈下降趋势,支持度设置大约在0.03左右为最佳。
表9 不同支持度下的产品特征提取实验
对于产品特征的情感分析,本实验使用已标注数据(正负样例)训练了情感词典,得到了1484个情感词。通过50条标注评论的检验,117个情感极性标注被正确识别出109个。准确率达到93.2%,而常用的朴素贝叶斯算法准确率仅为87.6%,主要是由于本文方法是具体地针对每条评论中每个产品特征的情感词来识别情感极性,因而具有更高的准确率。
5.3.2 产品满意度验证
产品满意度在一定程度上与用户打分保持一致。满意度越高,打分越高。很多在线评论网站,都提供在线打分,汽车之家网站上有大量打分数据。实验获取了2000个艾瑞泽5车型的用户打分,对比本文方法得到的产品满意度,两者皮尔逊相关系数为0.91,说明本文方法计算的产品满意度具备一定的可靠性。此外,我们计算每个打分下的产品满意度均值,如图11所示。可以看出打分越高,满意度均值越高。
图11 打分和满意度的关系图
本文首先利用特征提取与情感分析方法处理在线评论文本,识别用户对产品特征的情感极性以及量化用户对产品的满意度。再考虑城市等级和城市地区两个因素对区域需求偏好的影响,分别采用卡方检验模型和方差分析模型验证特征情感极性和产品满意度与区域特征之间的关联关系,发现存在显著区域差异的产品特征。
本文利用汽车之家网站的瑞虎5和艾瑞泽5的评论数据验证了模型的有效性。实验结果表明,油耗、空间、外观和内饰等特征的情感极性以及产品满意度受区域因素的显著影响。本文研究建立起了产品特征情感极性与区域特征的关联关系,为企业的区域化产品配置设计与营销策略提供理论依据。
此外,由于区域的人文经济以及环境条件是随着时间不断改变的。企业需要及时把握这种变化来改进和创新产品以适应不断改变的用户需求偏好。因此,未来的研究我们将进一步探索区域用户需求偏好的变化趋势和规律。