李 栋,李 爽,范宇鹏
(1.安康学院 教务处,陕西 安康 725000;2.西安财经大学 统计学院,陕西 西安 710100)
中国经济快速发展,人民生活水平普遍提高,居民对消费的需求不断扩大,整体消费结构随之优化升级。通过分析居民对商品、商家、市场的消费体验,找到消费中存在的问题与短板,有助于企业或商家针对性地改善产品和优化服务,加强消费市场的法治建设和有序发展。因此,营造和谐、良好的消费环境,对促进中国现阶段经济内循环和区域经济高质量发展具有重要的现实意义。目前,学界对消费环境的定义并不统一,尹世杰定义消费环境为“消费者在生存和发展过程中面临的、对消费者有一定影响的、外在的、客观的制约因素,它主要包括消费的自然环境和社会环境[1]”。林白鹏和臧旭恒认为“消费环境指消费者在消费过程中得以存在的外部条件,包括自然环境、人口环境、社会环境[2]”。卢嘉瑞认为“所谓消费环境,即人们的消费活动周围的情况和条件,换言之,即对消费者的消费行为有重要影响的、外在的、客观的因素[3]”。吴孝政等对消费环境细致划分,将消费环境分类为软、硬两层维度,提出在消费活动中,一些政策法规、基础设施、消费者所处地域文化、消费心理等会对消费行为产生影响的要素也应该囊括在消费环境中[4]。总的来说,尽管人们对消费环境的内涵认识并不统一,但基本是指对消费者的消费行为有重要影响的、外在的、客观的因素。
目前,关于消费环境的研究大多数集中于构成因素及其与居民消费的影响关系。在消费环境构成因素方面,毛中根和孙豪选择基础设施、消费者自身的文化水平、卫生条件、社会保障、财政政策为指标建立了较为全面的指标体系[5]。文苑棠在构建了指标体系的基础上,测算了随着消费环境的变动,消费者消费水平变动的程度,并找出了关键的影响要素[6]。马莉莉等从宏观角度出发,选取基础设施水平、社会保障政策、相关金融环境等指标,构建了动态面板模型来研究消费增长率,研究结果表明,消费环境与消费增长率存在显著正反馈效应[7]。李佼瑞等人在阐述消费环境内涵的基础上,首次从微观角度构建了包括安全放心、服务放心、维权放心在内的消费环境评价指标体系,并利用实地调研数据测算了陕西省消费环境指数[8]。
随着电子商务行业的迅猛发展,电商在线评论的地位在消费者购物活动中愈加重要。电商在线评论是指消费者在电子商务平台完成消费后,使用文字、打分等方式对所购商品、商家服务、商品物流等方面的评价。Lucini等以航空旅客的体验评价作为研究数据,通过构建LDA主题模型描述影响旅客评价的主题特征,进而构建旅客满意度评价指标体系[9]。Kim等通过对比美国和英国两个国家同等数量餐厅的评论信息,研究得出不同地域人们在就餐时对价格、食材新鲜度、服务态度等相同指标的关注程度[10]。马艳丽和胡正明提出消费者在进行网络购物时,商家服务态度、商品价格、售后完善程度等要素都会影响消费者是否购买这件商品[11]。周薇薇和田涛根据已公布的ASPI、CPI指数,表明了线下价格指数与线上价格指数之间存在协同性[12]。在目前电子商务行业的发展中,本地生活服务类电商作用日益凸显,美团、大众点评、饿了么等电商平台异军突起,覆盖了消费者衣食住行等生活的方方面面。郭顺利等以美团为例研究了移动O2O在线评论有用性排序模型[13],吴梦菲等以大众点评上15个城市公共图书馆为例,讨论了基于UGC评价类平台的公共图书馆服务质量水平[14]。
通过对文献的梳理发现,目前学者们对消费环境的研究主要集中于消费环境的量化研究且大多采用实地调查获取数据,笔者认为电商平台数据,特别是本地生活服务类电商也能对所在地域的消费环境给予反映,且所在地域的消费环境具有一定的空间差异性。本文在李佼瑞等人研究的基础上,通过爬取大众点评平台陕西省十个地市的餐饮业线上数据,结合文本挖掘技术和统计学方法,测算出了陕西省餐饮业整体及其各地市的消费环境总体放心度与各分项放心度,并通过空间分位图,分析了陕西省餐饮业消费环境的空间分布特征。
本文数据来源于大众点评平台,利用爬虫软件采集了2016—2018年陕西省十个地市餐饮业的共146 447家店铺,共爬取顾客评论221 333条。由于网络评论是消费者自主评论,没有统一的格式模板,所以在线评论中无法避免地会出现口语化、错别字、重复等研究价值较低的评论。在开始研究前,首先应对爬取评论进行数据清洗。观察所爬取结果可以发现,爬取内容中含有大量重复的短句评论,例如:“还行吧”“差不多吧”,此类评论,并没有包含价格、服务、质量、安全等潜在的与消费环境相关的因素,研究价值低,可以将这种评论删除,得到初步清洗后的评论数据合计201 525条,由于初步清洗后的评论中还含有大量无法识别的非文本数据,利用正则表达式,对初步清洗后的评论进行识别和筛选,保证评论数据全部为文本型,以方便后续研究的开展。
1.中文分词
本文使用比较成熟的jieba分词来爬取线上评论数据,并进行中文分词处理。通过观察分词结果,不断更新停用词库,使得分词结果更加精准。部分分词结果如图1所示。
图1 评论分词图
2.基于词云图的文本特征分析
对陕西省餐饮业的在线评论数据进行分词、去停用词后,本文利用词云图,将这些文本数据进行可视化。词云图是由一些词语集合组成的图形,词语集合都是由文本数据中的高频词组成,包含了文本中的关键信息,从而过滤掉了大量低频、无用的文本信息,简化了研究过程,可以使读者更高效、更精准地获取数据重点。利用Python中的wordcloud模块生成陕西省餐饮业线上评论的词云图,如图2所示。
图2 词云图
由图2可以直观地了解到“味道”“环境”“服务”“价格”是陕西省美食行业在线评论中出现频率最高的词语,其中“味道”占比最大;其次,“好吃”“分量”“量足”“餐厅”“酒店”“住宿”“干净”“实惠”“便宜”“老板”“实在”“热情”这些词语的词频在第二梯队,也应纳入本文研究的范围内。归纳整理词频高的词语,可以发现与“味道”相关的词语有“好吃”“分量”“量足”,基于此,可以将“味道”“好吃”“分量”“量足”概括为商品口味、商品分量两个因素;与“环境”相关的词语有“餐厅”“酒店”“住宿”“干净”,这些词语共同反映了消费者在消费时看重消费场所的环境因素,环境越好,消费者越放心,可以将“环境”“餐厅”“酒店”“住宿”“干净”概括为地理位置、卫生程度两个因素;与价格相关的词语有“实惠”“便宜”“超值”,基于此,可以将“价格”“优惠”“便宜”“超值”概括为商品价格、商品性价比这两个因素;与“服务”相关的词语有“老板”“实在”“热情”等,可以将“服务”“老板”“实在”“热情”概括为店主服务态度。通过词云图文本特征分析,得出消费者在餐饮业消费时最看重的7个因素为商品分量、商品口味、地理位置、卫生程度、商品价格、商品性价比和店主服务态度。
3.基于语义图的文本特征分析
通过采用词云图可视化分析,虽然可以直观看出消费者关注的因素,但无法分析出各个因素之间的关系。为了探究各因素之间的关系,下面利用网络语义分析对文本数据进行进一步挖据。网络语义分析可以得出各个关键词之间、关键词与评价词之间的关联关系,通过分析网络语义图的中心节点,可以更具体地分析评论特征。采用ROST CM6文本挖掘软件对陕西省餐饮业消费者在线评论进行社会网络和语义网络分析。随机抽取预处理后的陕西省餐饮业消费者在线评论8 000条,生成网络语义图如图3所示,可以直观看出:“味道”“服务”“口碑”“位置”“价钱实惠程度”是消费者关注的重点因素。
图3 语义图关联效果图
基于在线评论生成的语义网络关联词频表如表1所示,表中展示了关联关系的前30个结果,可以看出“味道”“服务”“环境”三个词是出现频率最高的词。与“味道”关联密切的词语有“好吃”“实惠”“地方”,“好吃”反映了食品质量,“实惠”反映了食品价格,“地方”反映了商家店铺所在位置,以上关联词反映了消费者在消费过程中着重关注商品质量、商品价格和店铺位置这些因素。与“服务”关联密切的词语有“态度”“环境”“热情”“老板”“这家”,“态度”和“老板”反映了商家服务态度,“这家”反映了顾客口碑,“环境”反映了商家店铺整体的环境,这些关联词反映了消费者在消费过程中看重商家服务态度、消费场所整体的环境以及顾客口碑,评价词“热情”多次出现,反映了陕西省餐饮行业整体服务态度良好。与“环境”关联密切的词语中,“味道”“服务”占前两名,说明消费者看重商家所在店铺的整体环境,因此环境影响到消费商品体验与服务。综上所述,通过语义网络图和词频表,可以得出商品质量、商品价格、消费场所地理位置、消费场所整体环境、商家服务态度、顾客口碑这6个因素是消费者在进行餐饮消费时着重在意的因素。
表1 词频表
4.基于LDA模型的特征分析
为降低变量数量,方便归纳影响消费的主要因素,采用LDA主题模型(潜在狄利克雷分配模型)从大规模文本数据中自动识别隐藏的主题信息,以深入挖掘消费者关注的热点问题。LDA概率主题模型的建模过程中,主题数K需要人为确定,因此K值的选取对模型的最终拟合效果十分重要。由上述词云图、网络语义图对在线评论大致分析,主题数目在4到13之间,经人工调试,当主题数目K值为7时,模型的困惑度最低,涵盖度较高,拟合效果最好,困惑度计算公式为:
(1)
其中,P(w)指测试集中出现每一个词的概率,N指测试集中出现的所有词的数量。
LDA主题模型建模结果,如表2所示。综合LDA建模主题归纳特征的结果,可以总结出陕西省美食行业的消费者在线评论,主要涉及:消费场所、商家口碑、卫生程度、商品分量、商品口味、商品价格、店主服务态度、服务员服务态度等方面。
表2 LDA主题建模结果表
1.指标选取与聚类
综合归纳词云图、语义分析、LDA主题建模三种文本挖掘方法提取出的陕西省餐饮业消费者在线评论的文本特征有以下9个因素:商品分量、商品口味、地理位置、卫生程度、商品价格、商品性价比、店主服务态度、商家口碑、服务员服务态度。由于实际中消费者个人表达习惯的不同,一个评价指标往往包含着多种不同的描述词汇,采用Word2vec(词向量法)来计算词语相似度并合并同义词。最后利用K-means聚类,指标聚类结果如表3所示。
表3 指标聚类结果表
2.消费环境指标体系构建
本文依据科学性原则、全面性原则、可行性原则构建指标体系,在安全放心、质量放心、价格放心、服务放心、维权放心五个分项放心的基础上,对照分析提取了九个特征要素,“商家口碑”“卫生程度”“地理位置”三个独立的特征要素反映消费者在消费时的安全感受[8];“商品质量”“商品分量”两个要素反映消费者所购消费品的质量问题;“商品价格”“商品性价比”反映消费者对价格的放心程度;“店主服务态度”“服务员服务态度”两个要素反映消费者对在消费过程中享受服务的满意程度。由此,构建了基于线上数据的陕西省消费环境评价指标体系,如表4所示。
表4 基于线上数据的陕西省消费环境指标体系表
1.词性标注与特征情感词对匹配
要对文本数据进行情感分析,首先要对分词后的评论数据进行词性标注。词性类别一般包括名词“n”、动词“v”、形容词“a”、副词“d”,在词性标注的基础上,根据词性模板来进行对特征词和情感词词对的抽取,抽取完成后,依据特征词进行的文本聚类分析所建立的特征词表,筛选出在线评论中的特征情感词对。本文总结了四种常见的词对匹配类型,利用正则表达式,筛选出相应词性搭配的词对,匹配结果如表5所示。
表5 词对匹配表
得到所有的词对组合之后,依据文本特征分析生成的特征词表,可以对特征情感词对进行筛选,如:[“口碑/n”“不错/a”]、[“环境/n”“好/a”]、[“位置/n”“便利/a”]、[“店铺/n”“干净”]、[“口味/n”“不错/a”]、[“质量/n”“好/a”]、[“分量/n”“实在/a”]、[“价格/n”“优惠/a”]、[“性价比/n”“高”]、[“老板/n”“实在/a”]、[“服务员/n”“热情/a”]、[“分量/n”“太/d”“少/a”]、[“服务态度/n”“太”“差”]。
2.相关情感词典构建
提取出特征情感词对之后,基于词典的方法进行情感分析,计算文本评论的情感值,进而计算各特征的情感值。本文所用情感词词典来源于HowNet,并根据研究内容,人工添加了一些情感词语。此外,评论中存在一些副词,其本身并没有反映情感倾向,但作用于一些情感词之后,会加剧或者锐减评论的情感倾向,如:“店家服务态度差”“店家服务态度非常差”,两者对于“服务态度”这一指标减少的程度不同。由此,需要建立程度副词词典,并赋予相应的权重,确保计算所得情感值的准确性。HowNet上已经对程度副词的修饰等级做了标注,参考此标注等级,本文对已有的程度副词词典进行扩充,具体如表6所示。
表6 程度副词词表
最后,文本评论中的否定词,类似于程度副词会加剧或减弱文本评论的情感极性,否定词会直接倒转文本评论的情感极性,如:“这家店的菜品口味很好”,在加了否定词后,会变成“这家店的菜品不是很好”,情感极性直接从积极倾向变为了消极倾向。由于否定词的数量不多,本文从知网上下载否定词词典。
3.情感值计算
构建情感词典后,根据上文所抽取的文本评论数据的特征情感词对,并对其进行情感分析,计算出评论短句的情感值,进而计算出每个特征的综合情感值。首先定义以下几种计算评论短句情感值的规则:
(1)评论中只有特征词,无情感词,则该句情感值为0。
(2)评论中只有特征词和情感词,则把情感词与情感词典进行匹配,读取其在情感词典中的权值,其值即为评论短句的情感值。
(3)评论中存在程度副词,不存在否定词。评论短句中由特征词、副词、情感词所构成,应先将评论短句与相应词典依次匹配,确定匹配好的情感词、程度副词对应的权值,再对评论短句情感值进行计算。评论短句情感值计算公式如下:
(2)
其中,f(x)代表句中情感词在情感词典中所取得值,Di表示句中副词所取得权值,n代表了评论短句中存在的副词个数。
(4)评论中包含否定词,但不含程度副词。评论短句由特征词、否定词、情感词所构成,应先将短句与相应词典依次匹配,确定匹配好的情感词对应的权值,再对评论短句情感值进行计算。计算公式如下:
F=(-1)jf(x)
(3)
其中,j为评论短句中否定词的个数,若短句中有奇数个否定词,则评论短句为消极倾向评论,且情感值为负;若短句中有偶数个否定词,则评论短句为积极倾向评论,情感值为正。
(5)评论中既有否定词,又有程度副词。评论短句由特征词、程度副词、否定词、情感词所构成,应先将评论与对应词典依次匹配,确定匹配好的程度副词、情感词对应的权值,再对评论短句进行情感值计算,计算公式如下:
(4)
根据上述规则,本文计算出了各个特征词所在的评论短句的情感值,假设由全部特征词组合而成的集合为X={x1,x2,x3,…,xi},由各特征词构成的短句的情感值集合为Wij={wi1,wi2,wi3,…,wij},则第i个特征词的综合情感值计算公式如下:
(5)
由此,计算得到本文所构建的9个特征指标的综合情感值如表7所示。
表7 特征指标综合情感值表
本文使用含有各个观测指标的评论数占总评论数的比例,结合客观数据,按照两两评测指标的比例差,对应1~9级的标度范围,构造出判断矩阵[15]。各观测指标的评论数目占总评论数的比例,由表8可知,各观测指标的占比差最大为37.16%,共有9级标度,以0.04为单位划分标度,判断矩阵的划分如表9所示。根据所构造标度划分表,利用层次分析法,得到指标体系评测指标综合权重如表10所示,各层次判断矩阵均通过了一致性检验。
表8 各观测指标占比表
表9 判断矩阵标度划分表
表10 综合权重表
由表10可以看出,消费者对消费场所整体的安全情况、商品的质量情况最为关心。在安全放心层面,消费者最为关心消费场所的卫生情况;在质量放心层面,对比商品分量,消费者更在意商品的品质;在服务放心层面,消费者更看重店主的服务态度,热情、实在的店主。
根据上文计算各指标相应权重及特征综合情感值得到陕西省线上消费环境放心度。综合消费放心度计算公式如下:
Q=∑Wi∑WjTj
(8)
其中,Q表示消费环境放心度的分值,Wi表示第i个一级指标的权重,Wj表示第j个二级指标的权重,Tj表示第j个指标的综合情感值。根据式(8),陕西省整体的消费放心度Q的三级指标放心度测算结果如表11所示,各二级指标特征的放心度和综合消费放心度如表12所示。
表11 特征放心度表
表12 分项放心度表
由表11可知商品品质、卫生程度、商家口碑的分值较高,说明陕西省大多数商家、消费场所的卫生程度是合格的,所提供的商品品质是有保证的,整体有着良好的口碑氛围。商品价格、服务员服务态度的分值最低,说明在陕西省整体的消费环境中,商品价格、服务员服务态度是消费者较为不满意的因素。这反映在表12中,消费质量放心度和安全放心度较高,消费价格放心度和服务放心度较低,因此,要想营造一个良好、和谐的消费环境,价格和服务层面工作水平有待提升。
根据情感打分和层次分析法所确定的指标权重,计算出基于线上数据的陕西省十个地市餐饮业的消费环境总体放心度及各分项放心度,如表13所示。通过GEODA软件,将各地市餐饮业的消费环境放心度在地图上可视化,进一步分析各地区餐饮行业消费环境放心度与各分项放心度的空间差异性,绘制分位图如图4所示。
表13 各地市消费环境放心度表
图4 各地市分位图
由图4(a)可见,汉中市、西安市为第一梯队;商洛市、渭南市为第二梯队;宝鸡市、安康市为第三梯队;榆林市、延安市为第四梯队;咸阳市、铜川市稍落后。分区域而言,关中地区、陕南地区餐饮业整体消费环境良好,陕北地区次之,但关中地区的咸阳市、铜川市餐饮业的消费环境有待提升。
由图4(b)可见,对于线上评论数据测算的陕西省十个地市餐饮业的消费安全放心度而言,西安市、延安市的得分值为第一梯队;汉中市、铜川市得分紧随其后,为第二梯队;安康市、宝鸡市得分略微靠后,为第三梯队;榆林市、渭南市的得分靠后,为第四梯队;咸阳市、商洛市的消费安全放心得分最低。分区域而言,陕北地区的消费环境安全放心情况良好,关中地区的咸阳市、陕南地区的商洛市消费环境安全放心有待加强。
由图4(c)可见,对于线上评论数据测算的陕西省十个地市餐饮业的消费质量放心度而言,汉中市、商洛市的得分值最高,为第一梯队;西安市、渭南市的分值次之,为第二梯队;榆林市、安康市的分值稍微落后,为第三梯队;宝鸡市、咸阳市的分值落后,为第四梯队;延安市、铜川市的消费质量放心得分值最低。分区域而言,陕南地区的消费环境质量放心情况良好,关中地区的铜川市、陕北地区的延安市消费环境质量放心有待加强。
由图4(d)可见,对于线上评论数据测算的陕西省十个地市餐饮业的消费价格放心度而言,商洛市、咸阳市的得分值最高,为第一梯队;汉中市、西安市的得分次之,为第二梯队;铜川市、渭南市的得分稍微落后,为第三梯队;宝鸡市、延安市的得分落后,为第四梯队;安康市、榆林市的消费环境价格放心度最低。分区域而言,关中地区的消费环境价格放心情况良好,陕北地区的榆林市、陕南地区的安康市消费环境价格放心有待提升。
由图4(e)可见,对于线上评论数据测算的陕西省十个地市餐饮业的消费服务放心度而言,延安市、宝鸡市的得分值最高,为第一梯队;西安市、汉中市的得分次之,为第二梯队;榆林市、渭南市的得分稍微落后,为第三梯队;商洛市、安康市的得分落后,为第四梯队;咸阳市、铜川市的消费环境服务放心度最低。分区域而言,陕南地区、陕北地区的消费环境服务放心情况良好,关中地区的咸阳市、铜川市需大力加强消费环境服务放心法律力度。
结合本文基于线上数据源的陕西十个地市餐饮业的消费环境测算结果(见表13)和陕西省市场监管局官方公布的基于实地调查数据源的陕西省2018年度消费环境指数排名结果,两种情况对比结果如表14所示,其中,线上排名为本文计算结果,线下排名为官方公布数据结果。由表14可以看出,无论是由线上评论数据测算的陕西省十个地市餐饮业的消费环境,还是根据文献[16]线下实地调研所获数据测算的陕西省十个地市的消费环境,汉中市、西安市、渭南市、商洛市均处于第一梯队,安康市、宝鸡市、榆林市均处在第二梯队,延安市、咸阳市、铜川市均处在第三梯队。总体而言,两种方法的测算结果相差不大,因此线上评论的研究结果具有参考性。对于地市排名的小幅度波动,主要原因在于两种数据源所建立的指标体系不同,基于线下调研方式主要访问的是消费者对当地生活衣、食、住、行等方面消费环境的整体感性评价,而本文的线上测算方式仅利用了餐饮行业消费者个人体验以及对商家、产品、服务等方面的评价信息。
表14 线上方式与线下方式测算结果的排名对比表
党的十九届五中全会提出“要加快构建以国内大循环为主体、国内国际双循环相互促进的新发展格局”。扩大内需是以国内大循环为主体的核心要义,优良的市场消费环境对促进市场良好运行、助力经济高质量发展和扩大内需发挥着重要作用。本文结合电商平台评论数据,利用文本挖掘技术讨论了区域消费环境放心度指标评价体系的构建问题,以陕西省十个地市餐饮业为例,通过计算各地市消费环境放心度,并进一步与官方公布数据比较,结果显示本文测算的结果与官方公布排名情况具有一致性,验证了基于电商平台数据开展区域消费环境监测的合理性和可行性。下一步研究可结合本地线上生活服务更多行业的消费行为大数据,构建更加全面的区域消费环境监测平台系统,从而能够实时监测区域消费环境市场,有助于地方政府加强市场消费监管,畅通消费者维权渠道,提升消费对经济的拉动作用,增强消费信心,在后疫情时代,对推动中国经济发展内循环和区域经济高质量发展具有重要意义。
结合评论数据所测算的陕西省消费环境放心度与线下调研获取数据所测算的陕西省消费环境指数结果,为营造更加良好的消费环境,提出如下建议:
第一,完善消费市场监管机制,增强消费信心。增强质量监控,加强价格监督,确保消费品质量合格,价格合理。倡导价格诚信,规范价格行为,让消费者买的安心,用的放心。
第二,提升服务质量,增加消费者满意度。提高各行业服务意识,转变服务观念,注重售后服务,在常规服务的基础上提供“增值服务”,确保消费者优良的消费体验。
第三,健全网络消费安全,保障消费者权益。一是加大对网络消费安全意识的宣传力度;二是严格管理网络消费数据安全,保护消费者隐私;三是严厉打击各大网络平台、自媒体关于传播产品虚假信息的不法行为,维护消费者知情权。