翟菊叶,刘玉文,叶泽坤
(1.蚌埠医学院 卫生管理系,安徽 蚌埠 233030;2.复旦大学 计算机科学技术学院,上海 200433)
消费者在作出购买决定之前,往往倾向于阅读产品评论,以降低搜索成本,降低认知负担[1],并减少采购的不确定性[2]。在医疗健康领域,如魏则西事件层出不穷,如何甄别有用的信息成为人们在寻求医疗服务时的关键。
近年来,在线评论有用性研究已经取得了一定的成果。根据研究内容可为三类:产品的特征、评论内容和用户[3]。产品特征角度主要研究产品品牌[4-5]和产品类型[5]等。评论内容角度主要关注评论是否详细[6-7]、文本可读性[6]和产品特征词[4,6]等。评论用户角度主要关注用户历史评论的价值[8-9]、评论情感倾向[10]等。
现有评论用户角度的研究独立考察了评论情感倾向的主调节效应。Chevalier将亚马逊上图书评论数据作为研究对象,发现正面评论能够促进图书的销售量,对于消费者更有用[11];唐艺楠对大众点评网餐饮类评论研究也验证了这个结论[8]。蔡淑琴等认为负面评论包涵的信息对评论阅读者更有价值,通过京东上手机负面评论数据分析发现,不同强度的负面评论有用性不同[9];郝媛媛通过分析在线影评,发现好评和混合情感的评论具有积极的影响[10]。综合以上文献,不同学者研究的样本不同,采用的特征指标不同,得到的研究结论有差异,甚至是相反结论。彭丽徽认为情感强度对品牌声誉好的手机具有正面影响,而品牌声誉差的手机负面评价更有用[4]。由此可见,存在两个特征指标互相调节共同影响用户对有用性的判断。然而,现有文献鲜有对线评论有用性指标在不同情感倾向条件下差异的研究。
基于此,本文以大众点评网医院评论数据为样本,通过逐步回归法找出影响有用性的特征指标,建立模型,进一步研究品牌、评论星级、长度、附图和回复等指标在不同情感倾向调节下有用性的差异,建立基于情感倾向的评论有用性多元线性回归模型,为医院职能部门提供决策支持。
消费者在正式交易前通过阅读网络上相关评论来了解产品,降低消费时可能产生的风险。本文通过文献阅读和专家咨询,将评论的星级、产品特征词、评论时间、评论长度、图片、评论回复数量等作为影响在线评论有用性的指标,研究以上指标在不同情感调节下对评论有用性的影响。评论有用性指标关系模型如图1。
图1 评论有用性指标关系模型图
因变量是评论有用性。大众点评网评论的右下方有“赞”按钮,用户阅读完评论后认为有用可点击按钮投票。本文中,用每条评论获得的“赞”数量来量化评论的有用性。
调节变量是情感倾向。情感影响用户的决策行为。情感分为三个等级:正面情感、混合情感、负面情感。目前,常用人工标注、文本挖掘、机器学习等方法计算文本的情感倾向。本文利用徐琳宏[12]的情感本体库建立情感词典,统计情感词词频,计算出文本的情感倾向[13]。
心里学领域研究发现,负面消息带给人的社会行动和反应所形成的刺激更大[14]。人们更容易受负面情感的影响,更加关注负面信息。据此,提出假设:
H1:情感影响用户对评论是否有用的判断,相比正面和混合情感,负面评论的影响力更大。
评论长度指评论中的字符数。Yin等[6]认为评论长度影响评论有用性。文献[6,15]认为过长的评论,阅读时用户所需承受任务数量越多。根据认知负荷理论较长的评论会使用户的负担更重,在一定范围内评论的长度越长,评论越有用;当长度超过阈值,评论越长有用性反而降低,为倒“U”形关系。Ghose等发现句子越短,阅读起来更容易理解,评论长度与评论的有用性呈负相关[16]。孙文俊发现图书领域的评论长度与有用性不存在相关性[7]。综合以上结论,不同学者的样本数据不同,得到的结论不一。据此,提出假设:
H2:评论长度与评论有用性无显著相关性。
用户对阅读的评论认可,可以点“赞”,还可以对评论回复发表自己的观点[9]。回复数量间接反应用户对此评论感兴趣的程度。据此,提出假设:
H3:回复数量与评论有用性正向相关。
用户消费后根据个体感受作1-5星评分。本文用评级偏差(用户评级与平均评级相减)代替原值。Mudambi通过对亚马逊的六种产品评论数据分析认为,带有极端评级的评论不如平均评级的评论有用[5]。Cristian通过分析亚马逊网站书籍评论,发现评论者评分与平均分偏差越小评论越有用[17]。但是,Kang认为当评级偏差较大时,更容易吸引消费者[6]。Cao以CNET网评论为研究对象,认为评分极高或极低的评论有用性更大[18]。结合上述研究,用户评级远大于平均评级,该评论的有用性小,接近或者低于平均评级时,有用性大。由此提出以下假设:
H4:评级偏差影响评论有用性。评级偏差越小,有用性越大。
本文中评论时间用发表评论至今天数表示。大众点评中的评论一般按照评价时间逆序排列,新发表的评论排在首页。郝媛媛等发现时间与评论有用性负相关[10]。评论发布后随着时间的推移,用户可能通过其他渠道获得产品的信息,对评论的依赖性降低或者较早的评论无法体现产品的目前状况。用户可能倾向于阅读新发布的评论,了解产品最及时的信息。由此提出假设如下:
H5:时间与评论有用性负相关。
品牌代表企业的独特形象。本文以医院的等级来量化品牌指标。医院根据等级划分为三级、二级、一级和私立医院等。医院等级量化如表1。
表1 等级量化对应表
Herr等人发现,用户对品牌声誉较高的产品受到负面评论影响较小,而对未接触过或品牌较小的产品,负面评论的影响显得更为突出[19]。张耕等认为畅销产品负面评论的有用性大幅度减弱[20]。根据Osgood提出的一致性理论[21],品牌声誉低的产品,用户的已有认知是负面的,更容易接受负面评论;而品牌声誉高的产品,消费者的潜意识是好的、积极的,正面的评价与已有认知一致。因此,更容易接受正面评论。由此提出以下假设:
H6:品牌声誉与评论有用性显著相关。
H7:负面和混合情感评论与品牌声誉负相关。
H8:正面评论与品牌声誉正相关。
产品特征词指评论中刻画产品属性的词汇。当评论中产品特征词出现的次数越多,表示对该产品特征描述的更细致,评论内容越有用。
图片能够直观反应产品所包含的信息,有助于消除用户的不确定性,增加可信度。如果评论附图,则赋值为1,否则赋值为0。
Mudanbi提出的评论有用性模型[22]被广泛应用并取得较好的效果。在该模型基础上提出本文的回归模型。即不同情感倾向条件下,构建回归模型:
其中,αi(i=1,2,……,11)为回归系数,是各变量的权重,ε为常数,表示随机误差。
选取大众点评网医院评论数据作为研究对象。采集上海地区750家医院的所有评论数据。涉及22288个用户共47086条评论。获得的数据包括了评论内容,评论的日期,评论星级,赞数量,评论是否附图,回复数量,医院等级等。对采集的数据进一步处理,删除含有网址连接、QQ、电话号码等广告信息的评论,利用IGMRM方法[23]找出虚假评论并剔除。另外,投票数量较少可能导致回归的偏歧,删除无用投票和投票数量小于5的评论。最后筛选出负面评论482条,混合情感评论570条,正面评论466条,共1518条有效评论。数据的描述性统计如表2。
采用逐步回归法将变量逐个引入排查出有用性影响因素,对全部样本数据回归结果见表3。模型的判断系数R2为0.174,校正的判断系数AdjR2为0.153。由图2可见数据基本符合正太分布。
对所有测试数据回归分析结果见表3,除“长度”和“情感×长度”外,其余指标皆显著相关(p<0.1)。其中,“情感”系数为负,表明负面评论对有用性影响更大,证实了假设H1。“长度”和“情感×长度”p值大于0.1,无显著相关性,证实了假设H2。评论太长给消费者阅读和理解都带来负担,评论太短则包涵的信息量不足。“时间”系数为正和“时间2”系数为负且均显著相关,表明时间呈倒“U”形影响评论的有用性,即较新的评论更有用,当时间超过某一阈值,对有用性影响减弱。所以,假设H5不完全成立。
表2 数据统计结果
表3 基于所有数样本的回归结果
为了检验评论有用性指标如星级、长度、是否
图2 样本数据标准化正态概率图
附图和回复等在不同情感倾向条件下的差异。分别对不同情感倾向的测试样本进行回归分析,得到结果见表4。可见,在不同情感倾向下,附图、回复以及品牌对在线评论有用性的影响皆显著相关(p<0.1)。其中,回复的估计值为 0.42、0.47、0.27,证实了假设H3。情感倾向不同,品牌与评论有用性均显著相关,P值分别为0.045、0.035 和 0.096(p<0.1),证实了假设 H6。然而,正向情感倾向下,品牌影响显著(p<0.05)且估计值为正,说明正向评论对等级高的医院更有用;而在负面情感和混合情感倾向情况下,品牌影响显著(p<0.05)且估计值为负,说明负面评论和混合评论对等级低的医院影响更大。这是由于品牌声誉低时,先前的经验导致用户会怀疑好评的真实性,而混合评价中包涵好评和差评,较为客观的评价能赢得用户的信赖。验证了假设H7和H8。
不同情感倾向下特征、时间和星级对评论有用性影响不同。正面和负面评论与时间相关;混合情感与时间无相关性(p>0.1)。表3中星级对所有数据显性相关(p=0.066),且估计值为负数,即用户的评级与商家综合评级差异越大,评论有用性越小。与假设H4相符,说明评级偏差小的有用性大于评级偏差大的评论,可能的原因是用户认为负面评论更有价值。表4中,负面评论下星级的估计值为正(p=0.006),说明两者正相关。负面评论的星级值一般低于平均星级,评级偏差值越小,有用性增加;评级偏差值大,有用性减弱。可能由于用户从众心里更能接受大众的评价。正面评论和混合评论与评论星级不显著相关。
表4 三种情感倾向下的样本回归结果
因此,在情感倾向的调节下,正面评论对等级高的医院更有用,特征、星级对有用性影响不大(p>0.1);负面情感和混合情感更能影响等级低的医院;评级偏差越小的负面评论越有用。混合情感倾向下,时间和星级对有用性不显著相关;不论何种情感倾向下,有附图或回复更容易被用户认可,对有用性显著正相关(p<0.1)。
本文以大众点评平台医院评论数据为研究对象。通过实验发现,不同情感倾向下各指标对评论有用性存在差异。根据研究结论,电子商务网站结合情感倾向,识别和完善有用的产品评论,对评论内容排序;节省用户在网上阅读评论的时间;能够更好地为用户选择医院提供参考。