向晶晶,李 侃
(湖南民族职业学院,湖南 岳阳 414000)
在线评论也称为在线消费者评论(OCR)或用户生成内容(UGC)[1].在线消费者评论是用户根据个人经验创建的产品信息,也是在线商品口碑的一种重要形式,并充当免费的“销售助手”,可以帮助消费者确定最能满足其使用条件的产品[2].在线评论是以文本形式用自然语言表达的经验、评估或意见,具有及时性、数量性、无组织性和复杂性等特征[3].现阶段,在线评论信息的数量急剧增加,甚至出现信息过载,这大大降低了信息的价值[4].因此,针对零售网站的在线评论进行文本挖掘不仅可以帮助消费者做出合理的决定,而且可以通过发现潜在的用户需求来指导厂家和制造商进行设计、生产和运营.在线评论的研究对象涉及了在线零售、电子书、旅游等多个领域.卓四清[5]等分析了来自Trip Advisor.com 的4366 条酒店评论的长度、极端性、有用性以及评论者的接受程度等,并研究了评论者个人信息披露对于在线评论有用性的影响.岳子静[6]等使用在线评论挖掘了用户的饮食偏好.吴恒[7]等使用UGC 文本内容挖掘方法研究了中国游客分享的蜜月旅行记忆,并分析了五种信息在游客蜜月目的地选择中起到的重要作用.Liu[8]等研究了电子书的电子口碑(eWOM).上述研究涉及各种各样的电子商务产品,侧重于研究评论对用户购买意图的影响,但是缺乏关于服装产品的在线评论与产品设计需求研究.
近年来,文本挖掘手段已被广泛应用于在线评论分析,许多学者对在线评论的有用性及其对企业和消费者行为的影响进行了大量研究.例如,王浩[9]等以互联网医疗社区haodf.com作为研究对象,研究了医生个人网站对增加患者评论数量的影响.这些研究在文本挖掘方法与研究对象上仍然具有一定的局限性,很少有涉及文本情感分类及产品设计需求挖掘的研究,因而需要进一步从文本分析的角度探索在线零售网站在线评论的产品设计需求.
在2021年3月和2021年4月使用网络抓取R 软件包rvest,针对淘宝平台以下五种服装收集了28452条产品评论:某女装连衣裙,某女装休闲裤,某男装卫衣,某男装休闲长裤,某童装休闲裤.所选取的这五种服装是淘宝平台上女装、男装和童装销量最高的服装之一,拥有大量评论,其总体评价普遍较高,且覆盖不同类型的服装.服装产品在线评论数据描述性统计情况见表1.
表1 服装产品在线评论数据描述性统计情况
在线评论数据的处理包括3个步骤:首先,过滤系统默认评论.当买家未能及时做出评价时,网站会给出默认评论,如“评价方未及时做出评价,系统默认好评”“买家未在15天内未做出评价”等或没有填写任何评论.这些评论不是买家给出的,因此需要对此类评论进行过滤.其次,过滤无效评论.有些评论只是标点符号或表达的内容没有实际意义,几乎无法提供有用的信息,且对评论文本的主题分析没有帮助,因此需要将其删除.最后,过滤重复评论.当买家一次购买多件同一商品时,经常会出现重复的评论.这种情况在高销量商品的在线评论中更加普遍,对词频统计有较大影响,因此需要删除重复的评论.信息经过预处理后,最终保留了22752条评论以供进一步分析.
本研究使用基于验证性方面的观点挖掘方法,需要预先定义产品评论的类别.通过对数据集进行分析,根据数据集中服装的特定特征或元素,将相似特征或相关性较高的常用术语合并在一起,所有评论归入到4个类别.具体来看,每条评论都归入以下4个类别(见图1):
图1 各个主题类别中相关度最高的主题词
(1)基本特征(X1).产品的基本特征是产品本身的特征,通常包括产品的外观、质量、功能、商标和包装.通过分析隐藏在用户评论中的有关产品基本特征的信息,可以了解消费者对实体物品的一般关注和需求.
(2)附加功能(X2).产品的附加功能是指除产品自身特征以外的相关功能,主要包括客户服务、物流、技术支持、信息提供等服务形式.
(3)用户体验(X3).用户体验是用户在使用产品过程中建立的一种纯粹的主观感觉.作为一种典型的体验产品,服装会带来丰富的用户体验.
(4)产品展示(X4).产品展示是指产品的详细展示,包括有关规格、款式、颜色等详细信息.
在建立了这些主题类别之后,对于所搜集到的每条评论,首先确定该特定评论是否包括与相应主题类别高度相关的单词.如果没有与某个特定类别相关的词,则将该评论在相应的主题类别上表示为“N/A”.然后,对于所有未标记为“N/A”的评论,进一步确定用户评论在感情上的正负性,即正面(P)、负面(N)和中立(U).表2 为情感标记结果示例.
表2 基于语义分析的评论主题分类示例
评论情感分析的步骤如下:
(1) 将客户评论由句子分解为一组分句(分解),每个分句又可以被分到4 个类别之中.通常以标点符号和连词(如“和”“与”等)作为分句的边界.
(2) 使用词性标记器将分解后的子句概括为两个词汇的组合(概括).例如,评论“我对衣服非常满意”可分解为(衣服,满意).每条评论的分句可以通过以下词汇组合方式进行表达: (名词,形容词),(名词,动词),(名词,副词),(动词,形容词)和(动词,副词).
(3) 根据出现频率对各个词汇组合进行区分(过滤).若词汇组合出现4 次以上,则将其标记为“常见”,而出现频次在4 次及以下的则标记为“罕见”.该过程可将词汇组合过滤为最常见的词汇组合,是监督学习标记的重要步骤.
(4) 使用外部信息或专业知识将过滤后的词汇组合手动匹配到预定主题类别(归类).通过“过滤”和“归类”两个步骤可构成一个初始的词汇组合袋,用于构建词汇组合学习模型,将更多的词汇组合匹配到相应的主题类别之中.此外,为避免两个不同词表达同一事物,再根据词汇组合是否常见,对意思相近的词汇组合进行合并.
(5) 对归类后的词汇组合进行情感系数打分(得分).使用结巴分词工具,根据所搜集到的评论内容定义的情感词典对词汇组合中的词汇进行情感标记,并对相应词汇组合的情感系数进行打分.
运用文本挖掘技术,从服装产品的在线评论中提取表达用户观点的词汇组合.其中,约75%的评论被归入到4 个主题类别: 基本特征(X1)、附加功能(X2)、用户体验(X3)、产品展示(X4).图2 显示了每个主题类别中服装产品评论的出现频率及其情感评分.
图2 不同主题类别的评论数占比
总体来看,“基本特征”主题类别是最普遍的主题之一,其评论数量占全部评论的36.8%.服装产品基本特征的评价主要集中在颜色、面料、工艺、款式等方面,消费者不仅关注服装的颜色和样式,还关注服装的做工、面料和质地,部分消费者还特意提及了“厚度”和“皱纹”.由于服装类产品的消费者最关注外观、质量等要素,希望所购买的服装满足“好看”“时尚”“质量好”等要求,因此服装的基本特征是区别于其他产品的主要特征之一,该主题类别的评论占比高并不奇怪.从消费者的情感态度来看,该主题类别的评论大多数都是正面的(64.6%),约有23.9%的评论是负面的,还有11.5%的评论保持中立态度.在一些评论中针对基本特征的描述总体上偏正面,但也会提及服装存在的一些问题.例如,“整体评价: 非常厚实,保暖性好,有设计感,搞不懂领口接头好像不怎么规则,设计师搞的花样,还是做工不太合格? 总体来讲很不错,性价比高,推荐购买”.造成这种问题的原因应该与商家不轻易让消费者给差评有关,可能出于避免商家骚扰的目的,消费者如果不是特别不满意,在评论时通常都会针对服装产品外观和质量的总体满意度给出一个肯定的评价,但也会在肯定之中说出对产品其他方面的一些不满意之处.
消费者除了关注服装产品的特性外,还多次评价了从购买产品中获得的相关服务.关于客服、物流等附加功能的评论数量比重占到了16.6%.从消费者对附加服务的情感态度来看,绝大部分用户对客服、物流等附加服务还是比较满意的,正面评价的比重为75.9%.对客户服务的反馈主要体现在尺寸建议中,通常是对效果的正面评价,例如“喜欢”(这个词通常不会与否定词结合出现).对物流的反馈主要体现在运输和现货上,这表明消费者对货物的交付速度有更高的要求.例如,“棉的,质感很好,厚实.发的顺丰快递,速度快,快递欧巴服务态度好.第一次购买他家的衣服,刚好做活动很划算.满意.女,165,体重53,客服推荐S码,很合适.仅供参考喜欢oversize风的,可选大衣.想买一件黑色的,没货了”.该评论内容在涉及服装面料和质感的同时,更多地描述了快递、客服及尺寸等相关信息.数据分析结果还显示了一些其他问题,如饰品、价格和已购消费者的反馈等.饰品、服装搭配、价格和已购消费者的反馈也已成为消费者谈论的热点话题.
消费者购买并试用服装产品后,将主要从服装搭配、身体部位、特定颜色和尺寸等方面来描述穿着效果.用户体验主题类别的评论占所有评论的比重为27.7%,是评论数仅次于“基本特征”的主题类别.从消费者对服装用户体验的情感态度来看,负面评论占比很低,只有7.1%,但正面评论也并没有占绝对优势,只有50.7%,还有42.2%的消费者在用户体验方面持中立态度.在服装搭配方面,消费者通常会选择从上至下审视服装,这反映了现代消费者强烈的审美意识和个性特征.“胸”“肩”“腰”和“腿”是买家经常提到的身体部位.“看起来苗条”“看起来帅”和“看起来胖”是经常使用的评估词,表明购买者特别关注以上四个部位服装的设计和舒适性.而且,苗条的身材仍然是大众的审美风向标,所有这些都需要商家特别注意.一般来说,服装产品的购买者偏爱“黑色”和“白色”,说明大众偏爱比较简单的服装风格,这方面的信息值得进一步分析和发掘.在规模方面,“XS”虽然频次并不高,但它非常突出,表明一些身材较小的买家也需要穿衣打扮,这一群体的服装需求不可忽视.
产品展示主题的评论数量占到了18.9%,而在这些评论中只有37.4%的评论为正面评论,有11.4%的评论为负面评论,还有51.2%的评论保持中立态度.服装产品展示的目的是使电商平台的消费者通过线上平台看到商品后就能更直观地理解网站上显示的商品.通过分析在线评论的文本,可以看到,对产品展示效果的意见共享主要体现在图片与实物之间的符合程度,服装产品最突出的问题是色差问题,这已成为电商平台服装店的常见问题.关于产品展示的评论多数是中立的,这说明大部分消费者对服装产品展示的效果并不是特别满意.例如,有消费者提及“材质特别好,颜色有点尴尬米色是比较深的米色,不是米白.” 还有消费者评论“超级无语,码也太不准了,第一次买了灰色的给儿子,穿上觉得好看,又买了一条黑色的给老公,结果不同的码竟然一样大,两条裤子的面料也不一样.” 以上评论针对服装产品的颜色、尺寸在网站上展示的效果与实际效果之间存在的差距进行了评论,表达了负面的观点.
本研究使用在线评论来评估用户对服装产品的看法和态度.这些评论来自于淘宝平台上五个在售的流行服饰.然后,使用观点挖掘技术对这些评论进行分析.每条评论的文字均使用词汇组合进行概括,每个词都包含针对服装某个方面的意见.这些词汇组合被分为4 个主题领域,并按“积极”“消极”或“中性”的划分对其进行情感评分,分析了淘宝网服装产品的潜在用户需求.
首先,产品特性是影响消费者购买意愿的重要因素.“基本特征”所获得的用户评论数占比最高,说明消费者最关心服装颜色、面料、工艺、款式等方面的信息.关于这方面的正面评论虽然占据多数,但负面评论也不少,这显示出不同消费者对服务“基本特征”的态度表现出了比较大的差异性,因此卖家在对不同消费者呈现服装“基本特征”过程中采取的销售策略应具有比较强的针对性.例如,消费者非常关注衣服的颜色具体来说有三个方面: 第一,“颜色”一词的频率高于服装产品的其他基本特征(如面料、样式和工艺); 第二,在反映用户体验的评论中,也有针对性地讨论了特定颜色(如白色和黑色),在一定程度上显示了消费者的颜色偏好; 第三,在产品展示中,色差是最突出的问题.以上结果表明,颜色已经成为影响消费者服装购买意愿的重要因素.商家应重点分析消费者对服装产品的功能需求,然后提供有针对性的产品和服务.
其次,用户体验是影响消费者购买意愿的关键因素.“用户体验”获得的评论数量占比仅次于“基本特征”,且以“正面”和“中立”的评论居多,“负面”评论较少,说明服装消费者在用户体验方面还是相对比较满意的.对产品质量的体验和感知更多取决于个人主观的经验判断.消费者通常在购买此类商品时难以获得完整的信息,并且对同一产品的认知也因人而异,不同人对产品的实际效果和期望值可能会显著不同.因此,所收集的服装评论中出现了大量经验性评价内容.在消费者体验服装产品的过程中,可通过将虚拟现实和增强现实等多媒体技术相结合,允许打开“Internet 试衣间”,使消费者可以通过“试穿”来增强体验.一般来说,在采用O2O 模式进行产品销售的过程中,卖家可以通过离线建立体验店,方便消费者及时了解和体验服装.
最后,产品展示和提供更多的附加功能是影响用户购买意愿的一种特殊方式.“附加功能”与“产品展示”两大主题领域获得的评论相对较少,“附加功能”所获得的正面评论占比较高,“产品展示”所获得的中立评论较多,而正面评论不足一半,说明消费者对服装产品的“附加功能”是比较满意的,但对服装的“产品展示”满意度则并不算高.在线服装店的卖家可以通过图片、文字、短视频以及通过微博和微信等社交媒体全方位展示服装产品.除了显示产品的基本特征外,还可以通过在线直播服装搭配、时装解释等方式提供信息服务,以增加产品的附加功能,从而影响消费者的购买决策.此外,卖家还可以通过增强产品展示中的社会属性,吸引更多消费者积极地参与服装产品的体验与购买行动.
本研究评估消费者对服装产品的看法和态度,所得到的结果可能对服装产品的卖家有所帮助.卖家可以更好地了解消费者对服装产品的相关观点、看法和感兴趣的产品.对于服装设计者、服装生产商和服装销售商,也可以帮助他们了解消费者感兴趣的服装需求,并与拥有相应服装需求的潜在消费者的积极情绪进行关联,以更好地制定服装设计、生产与销售计划.然而,本研究也存在一些局限: 首先,使用的是通用情感词典,并未使用特定领域的情感词典,可能难以帮助捕获关于服装领域的特定词汇以及与之相关的情感; 其次,所搜集的评论数据并未包含潜在购买者的需求数据,那些不在线购买服装的人无法产生在线评论数据,因此基本上不可能存在由潜在消费者创建的在线评论数据集.进一步工作将对在线评论的消费者服装需求与线下潜在消费者的服装需求进行比较分析.