孙菀霞,谢均扬,任芮瑄,纠松涛,张才喜
(1. 上海交通大学农业与生物学院,上海 200240;2. 上海交通大学电子信息与电气工程学院,上海 200240)
随着互联网技术的快速发展,人们的日常购物方式由线下实体店拓展到线上网店,网络购物正受到越来越多消费者的青睐。据国际葡萄酒及烈酒研究所(international wine and spirits research,IWSR)发布的《2019年全球酒水电商市场战略报告》统计数据显示,中国酒水电商市场居全球交易规模之首,并且2019—2024年间,全球核心市场的酒水营业额将以每年15%的速度增长,远高于整个电商行业每年约1%的营业额增速[1]。然而受新型冠状疫情影响,国内市场进口葡萄酒与国产葡萄酒均受到较大冲击[2]。2020年1—2月中国葡萄酒销售收入为12.88亿元,同比下降40.8%;利润为0.5亿元,同比下降58%[3]。此次疫情,使葡萄酒生产厂家和产品代理商认识到传统终端式销售渠道的不足,开始重视线上渠道的销售与自媒体的传播[4]。在葡萄酒销售渠道由线下销售向电商转型的调整阶段,商品标题所包含的产品信息不仅能够吸引顾客、优化购物体验,而且能有利于促进销售、树立品牌形象[5-6]。因此,如何有效地利用现有网购数据,帮助商家拟定符合消费者偏好的葡萄酒商品标题成为亟需解决的问题。
文本挖掘是指利用统计建模等手段进行文本解析并获取高质量信息的过程[7]。商品标题是文本数据,属于非结构化数据。在文本挖掘技术盛行的热潮下,国内外很多学者对网购商品标题进行多领域多角度的研究。包慧君等[5]对网络零售土鸡蛋的商品标题设置进行分析与优化,结果表明,商品标题中核心词较混乱,并且各种炒作的概念较多,易导致消费者选择困难。李佳林[8]对女装、女鞋、手机数码和家电办公4大类商品的标题进行优化。Wang等[9]提出一种基于在线评论的智能手机标题优化方法,可以有效反映消费者购物偏好。然而,针对网购葡萄酒标题的研究鲜有报道。
因此,为了准确、完整、简洁地对网购葡萄酒进行特征描述,提出基于关联规则的网购葡萄酒标题分析与优化方法。通过对不同销量级别的商品标题关键词进行关联度挖掘,为商家改进标题提供理论参考。同时,为了进一步分析与商品销量有关的影响因素,研究以销量为目标变量,以标题所反映的商品属性以及售价为自变量构建随机森林模型,以期帮助商家适时评估消费者偏好,调整供货与销售策略。
为了全面地获取葡萄酒标题、售价与销量信息,研究利用Python语言开发的网络信息抓取软件以“葡萄酒”为关键字从“淘宝网”抓取300页网页数据,共获取3023条商品信息。经过数据清洗,剔除“白酒”“江小白”以及“鸡尾酒”等与主题明显无关的数据,剩余2970条有效信息作为分析数据。采用四分位数切割法,按照“销量”将商品分为4个不同的等级,即“低销量”“低中销量”“中高销量”和“高销量”商品。在有效的商品数据中,销量的最小值为0,最大值为5651,四分位数由低到高依次为10、27和87。
词频是指某个词在一个文档中出现的频数。文本中的高频词可以在一定程度上反映文本特征。研究基于R软件jiebaR包中的混合模型(即隐式马尔科夫模型与最大概率法的结合)对葡萄酒标题进行分词处理。在分词过程中,去除空格、数字、字母和标点符号。提取分词后各销量等级的标题文本中词频大于50的高频词并集,进而分析不同销量等级的标题词特征。
关联规则是文本挖掘的一个重要研究方向,通常用以描述数据集中两组不同对象之间存在的某种关联关系[10-11]。利用Apriori算法挖掘4个不同销量等级文本库中的频繁项集,通过设置支持度(support)为0.1且置信度(confidence)为0.8对高频词的关联规则进行挖掘,进而比较文本标题中高频词的关联差异。此外,根据词频分析结果对“低销量”和“高销量”等级中词频差异较大的词——“女士”进行关联规则分析,实现对“低销量”商品标题信息的良好补充。为了筛选出较强的关联规则,选取提升度(lift)大于3的关联结果进行分析。
随机森林是由多棵分类回归树(classification and regression tree,CART)构成的组合分类模型,该方法不易出现过拟合,具有良好的准确率和稳定性[12]。以葡萄酒销量作为随机森林模型的目标变量,同时根据jieba分词结果对商品标题进行特征提取,从而获得特征向量(自变量)。用于随机森林模型构建的自变量包括以下标题特征,即包装方式(单支、两支、礼盒、整箱、桶装)、进口、国家、气泡或起泡、波尔多、甜或半甜、正品、女士、赤霞珠、促销或特价、白葡萄酒、莫斯卡托、赠送酒具13个维度。由于商品售价也是消费者考虑的主要因素之一,因此在标题特征属性的基础上引入产品单价这一维度,从而将标题特征数据和销量数据进行集成,共同构成随机森林模型的样本数据集。
对“低销量”和“高销量”商品建立以销量为目标的随机森林分类模型,通过R软件将数据集随机划分为70%的训练集和30%的测试集,然后根据Random Forest 函数建立随机森林模型,并获得各自变量的相对重要性程度排序。重要性程度以平均准确度下降程度(mean decrease in accuracy)和平均基尼指数下降程度(mean decrease in Gini index)进行评估,评价指标的数值越大表示变量的重要性越大[13]。平均准确度下降程度的含义为将一个变量的取值变为随机数时,随机森林诊断准确性的降低程度[14]。平均基尼指数下降程度是计算每个变量对分类树每个节点上观测值异质性的影响,从而比较变量的重要性[15]。最后,根据灵敏度、特异度以及特征曲线下的面积(area under curve, AUC)评价模型的预测精度和泛化能力。
对4个销量等级中词频大于50的标题词取并集,分析标题词之间的共性与差异。由图1 A可见,“葡萄酒”“红酒”“干红”和“进口”4个词的出现频数最高,是标题中的核心词。与低销量产品的标题相比,高销量产品标题中“起泡”和“支装”出现的频数较高,而“红葡萄酒”和“赤霞珠”出现的频数较低。由图1 B可见,随着销量的增加,“包邮”“澳洲”和“智利”出现的频数逐渐降低,但“波尔多”“西班牙”和“意大利”出现的频数有所升高。对于词频介于50~100的标题词而言,高销量葡萄酒中“气泡”“甜酒”“甜型”以及“女士”的出现频数明显增多,表明以女性为销售对象可能是提高产品销量的有效方式之一。与低销量葡萄酒标题中词频差异较大的‘莫斯卡托’葡萄经常用于酿造口感甘甜、香气芬芳的起泡酒和微泡酒,此类酒深受女士们欢迎[16-17]。因此,建议销售商推出以女性为消费对象的葡萄酒。
据Vinexpo与IWSR联合发布的《全球葡萄酒市场现状和未来趋势预测报告》显示,全球葡萄酒市场将呈现精品化趋势,并且起泡酒的增长速率优于静止酒[18]。预计2022年,全球起泡酒销量有望达到2.81亿箱,价值约329亿美元[19]。在起泡酒为全球葡萄酒市场带来活力的契机,我国也要适当提高起泡酒的市场占比。
“买一箱送一箱”在高销量的产品中出现频率较高,因此一定的促销活动可以刺激销量提升。然而,研究数据显示,与70、80后相比,90后群体线上购酒时对促销并不敏感,80后群体是最精打细算、货比三家的群体[20]。因此,销售商应针对不同的消费群体,制定个性化的商品标题,增强与买家搜索的匹配度,使产品搜索结果靠前,通过增加商品曝光率和点击率以提高产品销量。
对4个销量等级中的高频词分别进行关联规则分析发现,低销量的商品标题中不存在有效的关联规则,高销量产品中的商品标题关联规则最多,说明低销量产品中标题设置混乱,而高销量产品的标题词有一定关联规律(图2)。“低中销量”的商品标题只产生一条关联规则,即标题词中若出现“波尔多”,则很有可能会同时出现“法国”,并且在“中高销量”和“高销量”级别的产品中同样存在该关联规则。进一步分析发现,对“高销量”产品而言,“波尔多、干红、红酒、进口、葡萄酒”的所有子集中,若包含“波尔多”,则同时包含“法国”。然而,“中高销量”产品缺失了“高销量”中的部分关联规则。因此,建议标题中若出现“波尔多”时,同时标注“法国”。
图2 不同销量级别中提升度大于3的高频词关联规则Figure 2 Text association rules for high-frequency words based on lift more than 3
通过对低销量和高销量产品中词频差异较大的标题词——“女士”,进行关联规则分析,发现低销量的商品标题不存在有效的关联规则,低中销量仅有1条关联规则,中高销量产生7条关联规则,高销量则达到11条关联规则(图3)。在“中高销量”的标题中产生包含与“整箱”和“莫斯卡托”相关的关联规则,而在其它两组销量等级中没有此类关联规则。在“高销量”的标题中,关联规则多与“甜型”“甜酒”“气泡”以及“起泡”有关。
图3 商品标题中与“女士”相关的关联规则Figure 3 Text association rules related to female
《2019中国酒类消费行为白皮书》指出,女性消费群体正在崛起,并且女性对葡萄酒的甜度喜好程度要高于男性[21-22]。因此,建议增加甜酒和起泡酒的产品类型,并且在标题词中与“女士”相关联。
通过将随机森林模型的预测结果与实际结果进行比对,发现模型的灵敏度和特异度分别为74.5%和79.9%,AUC为0.772,表明模型具有较好的评估性能。根据平均准确度下降程度和平均基尼指数下降程度对变量的重要性进行排序,在销量的判别模型中,重要性排序前5位的变量分别是商品单价、产地、包装方式、是否属于甜型、是否为进口酒(图4)。其中,商品价格是消费者考虑的最主要影响因素。
图4 分别根据平均准确度下降程度(A)和平均基尼指数下降程度(B)对变量的重要性排序Figure 4 The importance of variables according to the mean decrease in accuracy (A) and mean decrease in Gini index (B)
基于文本关联的网购葡萄酒标题特征提取以及基于随机森林模型的葡萄酒销量影响因素分析。根据低销量、低中销量、中高销量和高销量的词频特征,提出要增强以女性为消费群体的建议。此外,根据文本关联分析发现,低销量商品标题词存在杂乱无序的现象,但是高销量商品标题词的关联性强,建议低销量商品加强标题词的关联性,有针对性地进行商品特征描述。同时,本研究表明,随机森林模型可以较好地对低销量和高销量产品进行区分。商品特征的重要性排序结果可以为商家设定商品标题提供有价值的参考。因为售价是影响销量的最主要因素,因此低价位已成为我国电商平台畅销葡萄酒的共同特征[23]。除售价外,葡萄酒产地也是影响销量的关键因素之一。Vinexpo调查显示,女性在选择葡萄酒时主要关注的因素依次是:售价、葡萄品种和原产国[24]。疫情之下国内消费者的民族情怀上升,对提高国产葡萄酒的品牌自信有很大帮助。若借助本次进口酒受阻的时机,创造出更适合国内消费的优质葡萄酒,将为未来国产葡萄酒崛起提供契机。
由于主要针对商品标题的文本特征进行销量分析,尚未涉及商品人气指数、商品评价、卖家信誉以及服务质量等因素,因此在以后的销量影响因素综合分析中,应纳入更多的自变量,以期进一步提高模型评估的准确性。