邵 婷,杨佩婷,姜红波
(厦门理工学院经济与管理学院,福建 厦门 361024)
2014年,“农村电商”被正式写入中央一号文件,迅速成为推动农业农村经济发展的新引擎,帮助贫困地区实现跨越式发展,在精准扶贫的同时实现多方共赢[1]。2020年,恰逢脱贫攻坚决胜之年,却又面临新冠疫情,物流不畅,农产品销售普遍遇到困难。在这样的形势下,抖音(TikTok)电商平台开展一系列助农直播带货活动。其中,“山货上头条”“市长带你看湖北”“宝藏乡村过大年”“齐心战疫,八方助农”“云逛街”等活动反响热烈。得益于线上直播和短视频的新形式,抖音电商平台在助农产品销售中取得巨大的成功,为“战疫助农”和“乡村扶贫”作出了巨大的贡献[2]。
在电子商务领域,消费者往往通过发布在线评论来表达对产品、服务及平台的真实感受,因此在线评论中丰富的语义信息成为获取消费者需求的重要信息来源。随着自然语言处理(NLP)的发展,出现许多从非结构化文本中提炼信息的方式,如词干提取、词向量化、主题分析、情感分析等,而潜在狄利克雷分配(latent Dirichlet allocation,LDA)主题分析是最为常见的一种。LDA模型的生成过程是一个无监督学习的过程,可以对非结构化的文本进行主题提取,同时需要人为地定义这些主题的名称。消费者在线评论因其口语化和随意性,是典型的非结构化文本。因此将在线评论与LDA 模型组合的研究范式,在电商领域应用十分广泛,主要包括消费者情感分析[3-5]、消费者偏好特征和消费者画像构建[6-10]、消费者满意度测评和影响因素研究等[11-15]。随着消费理念和消费方式的升级,挖掘并满足消费者的个性化需求成为各类电商平台成功的关键,目前相关研究主要集中在生鲜电商、网络零售及社交网络平台[8,15],对抖音为代表的兴趣电商平台的研究才刚刚开始。同时,现有的研究往往将LDA 模型作为主题挖掘的方法,与其他模型或方法相结合进行消费者情感分析、偏好分析或满意度分析,构建类似于“主题识别-整体情感分析”的研究范式[5,16-17]。一方面,该方法缺少对高频词之间共现关系的可视化分析,难以细粒度地识别主题间的关联关系[18];另一方面,该方法只能分析在线评论的整体情感倾向,无法获得不同评价主题的情感倾向。为此,本文以抖音电商平台上的助农产品在线评论为研究对象,在基于LDA 模型探究消费者关注主题的同时,引入高频词分析、共现网络分析、情感分析等方法对评论数据进行扩展分析,构建“主题识别-高频词分析-共现网络分析-主题情感分析”的深度研究范式,既考察整体高频词的共现关系,又探究不同主题的消费者情感,以把握消费者对助农产品的关注点和情感倾向,从而为电商平台的发展提出建议。
2021 年以来,抖音推出“山货上头条”助农项目,截至2022 年3 月21 日,该项目已陆续推出“风味延边”“风味龙岩”“冬季山货节”3 个重点项目。在为期24 天的“冬季山货节”活动中,平台共助销547.3万单农货,短视频播放量达14.4亿次,9 000多位创作者参与分享家乡山货[19]。本文选取抖音电商平台“山货上头条”官方账号橱窗精选好物中消费者评论数量大于2 000且排序靠前的18件产品的评论,通过Python编程抓取评论数27 365条,具体的产品评论示例如表1所示。
表1 Python编程抓取的产品评论示例Table 1 Sample product comments captured by Python
(1)文本去重。通过删除重复评论和系统默认评论来保证评论数据的有效性,共删除12 140条数据,剩余有效评论15 225条。
(2)机械压缩去词。为避免口语表达的随意性和非正式性,当一个词重复出现3 次时执行压缩。例如,将“个头大 新鲜 好吃好吃好吃好吃”压缩为“个头大 新鲜 好吃”,共压缩去除7 683 个字符,剩余字符串长度343 839。
(3)短句删除。由于短文本对情感分析没有太大的作用,所以将单条评论少于5 个字的数据删除。例如“好”“一般”“收到了”,共删除1 221条数据,剩余有效评论14 460条。
(4)文本分词。在中文中,只有字、句和段落之间能通过明显的分界符进行划分,而对于“词”和“词组”来说,是边界模糊的,因此,中文分词结果的准确性对后续模型构建有着不可忽视的影响,本文使用Python 的jieba 库的精确模式对评论文本进行分词。例如,将“不错,第二次购买了”分词为“-不错-,-第二次-购买-了-”。
(5)导入自定义词库和停用词库。本文使用的停用词库是基于哈尔滨工业大学和百度的停用词表,再加上采集的评论中出现的数值、字符和无意义词,如“吃、喝、买”等动词,以及“太、挺”等副词。同时针对助农产品评论的特殊性,导入特定的词汇,如“助农”“战疫”等。
(6)对分词结果进行词性标注,主要有名词、形容词和动词。
LDA是由Blei等[20]在2003年提出的一个生成性的三层贝叶斯模型,分为文档、主题和词语3层。其中,一篇文档可对应一个或者多个主题,一个主题对应一个词汇表。同时,预先设定的LDA主题数量会直接影响聚类结果的优劣。因此,在主题抽取之前应该对可能的最优主题数有一定的先验估计[21]。
预裂孔:线装药密度:加强段 294g/m、正常段 147g/m,底部装药量 1.8kg,单孔装药量 3.8kg。
在LDA 模型中,通常通过困惑度来确定主题数量。困惑度是通过计算给定数据集的对数似然函数来衡量模型对未见过的文档的预测能力。即对于一条评论文本,所训练出来的模型对文本属于哪个主题的不确定程度。较低的困惑度值表示模型更好地预测了未见过的文档中的词,即模型对整个数据集的拟合效果更好。困惑度的计算公式为
式(1)中:D表示语料库;M为文档数;Nd表示每篇文档中的单词数;Wd表示文档中的词;p(Wd)为文档中词Wd产生的概率。
利用Python 代码实现LDA 主题困惑度的计算,具体如图1 所示,随着主题个数的增加,主题困惑度逐渐降低,表明该模型的聚类效果相对较好。但困惑度值也不是越小越好,因为过拟合也可能导致困惑度降低,因此在选择主题个数时需要与实际相结合。图1中,主题个数在6、7时困惑度曲线的变化率出现拐点,8 达到最低。接着导入pyLDAvis 包,对主题聚类结果进行可视化展现,如图2所示,当主题个数为8 时,各主题覆盖的内容区分较好,因此最终确认主题个数为8[22]。
图1 主题数量-困惑度图Fig.1 Number of topics-perplexity
图2 主题聚类可视化结果图Fig. 2 Topic clustering
确定最佳主题数量之后,再次利用Python 软件构建LDA 模型对评论文本进行主题聚类,包括确定主题特征词和计算主题强度。在LDA 模型中,每个词语都有一个权重值,表示该词语在当前文档中与某个主题的关联度。通过计算每个词语在特定主题中的权重,可以找到与主题最相关的特征词。首先,输出每个主题下出现频率靠前的25 个词汇。其次,为确保各个主题之间边界清晰,对于出现在多个主题和意义不明确的特征词予以删除,选取频率相对靠前且更具主题区分度和代表性的12 个词汇作为特征词,并根据特征词的语义关系进一步对主题进行人工命名。最后,作为一种概率模型,通过基于概率分布的统计结果来确定各主题强度,即不同主题下评论文本的数量占总文本数量的比重。LDA主题聚类结果如表2所示。
表2 LDA主题聚类结果Table 2 Results of LDA topic clustering
由于主题聚类结果中主题8的特征词语义关系不明确,难以进行命名,表明主题模型可能无法挖掘出消费者的所有关注点。因此在LDA 模型的基础上,进行高频词分析和共现网络分析,旨在识别主题间的关联关系,探究LDA 模型可能忽略的关键信息。最后,引入情感分析识别不同主题的消费者情感倾向。
高频词分析是对文本数据中的重要词汇出现的次数进行统计和分析,能够更快速地了解在线评论的热点。对预处理后的在线评论词汇的分析发现,消费者描述购物体验所使用的高频词(表3)中,名词占47.50 %、动词占31.47%、形容词占8.9%。名词多用于描述消费者所评价的产品维度,如味道、质量、包装、口感、物流、价格等;形容词主要体现消费者对购物过程的体验和对产品的整体感知,如不错、好吃、值得、满意,其中,赞美词出现的频次居多,即情感倾向多为正面;动词主要是对消费者购买过程中不同行为的描述,如收到、购买、回购、支持、推荐等。
表3 高频词表Table 3 High frequency words
共现分析法是一种计算文本中多个词语同时出现的频次,并根据它们之间的相似性关系进行分析的研究方法。通过构建相应的共现网络,能够更清晰、直观地了解各关键词的重要性和它们之间的关联关系[23]。本文使用KHCoder3 软件绘制抖音助农产品在线评论中高频词的共现关系。具体设置包括:(1)根据词频数来筛选词汇,获得词频数大于75 的词汇共176 个;(2)选取Jaccard 系数大于0.05的共现网络关系。共现网络分析如图3所示。
图3 共现网络分析Fig. 3 Co-occurrence network analysis
在共现网络分析中,词所在的圆圈大小代表词出现频次的大小,不同的颜色代表不同的主题;词与词之间的连接线代表关联度,连接线越短或连接节点越少,说明词与词之间的关系越紧密,虚线代表不同主题间的关键词存在共现关系[23]。通过共现网络图,可以了解消费者对抖音平台助农产品评价的整体情况。
首先,从共现网络图中能够发现,其与LDA 主题相互佐证的关系。如“性价比-价格-贵-便宜”表明消费者重视产品的价格,对应主题1;“品质-质量-商品-很好”表明消费者重视产品的质量,对应主题2;“支持-公益-肖战-助农-项目”表明粉丝愿意跟随偶像一起参与助农等公益活动,对应主题3;“好吃-甜-核小”表明消费者对产品的感知价值,对应主题4;“商家-服务-态度-感觉-很好”描述消费者对商家服务的体验,对应主题5;“推荐-县长-代言-领导”反映消费者对“县长直播”的期待和支持,对应主题6;“物流-快-发货-速度”反映消费者对助农产品的物流效率的感受,对应主题7。
进而发现:(1)商家服务和物流服务是联系紧密的主题。“商家-服务-快递-态度-感觉-很好-物流-快-发货-速度”等节点之间存在关联性。物流服务和商家服务都是在助农产品购买过程中为消费者提供支持和服务的重要环节,客服人员和物流人员友善的态度、高效率的服务都会提升消费者的购买体验。(2)产品价格和产品质量是联系紧密的主题。“商品-质量-品质-性价比-价格-贵”等节点之间存在关联性,消费者在购买时更倾向于选择性价比较高的产品。(3)助农活动和县长支持是有关联的。“领导-代言-县长-推荐”和“助农-粉丝-项目组-公益组”虽然联系不是很紧密,但主题间距离较近,部分高频词存在共现关系。
最后,在共现网络中也发现了新的关联关系。如“再来-下次-光顾-再买”表明消费者具有再次购买的意向,“包装-完好-严实”反映消费者对产品包装的感知较好,而“分量-足-少”反映消费者对产品分量的感受不太一致;“满意-购物-抖音-产品”表明消费者对抖音平台产品及购物体验是比较满意的。
在线评论情感主要分为“积极”“中性”和“消极”3 类,用于了解消费者对抖音电商助农产品的满意度。本文使用ROST Content Mining软件对所爬取的助农产品评论进行情感分析,运行结果中情感赋值是正数则表示积极情绪,0表示中性情绪,负数表示消极情绪。进一步将积极情绪划分为一般(0~10)、中度(10~20)、重度(20 以上),将消极情绪划分为一般(0~-10)、中度(-10~-20)、重度(-20以下)[24]。不同主题的情感分析结果如表4所示。
表4 不同主题的情感分析结果Table 4 Results of sentiment analysis by topic
由表4 可知,在总体情感分析中,积极情绪占80.75%,中性情绪占9.94%,消极情绪占9.31%,可见,消费者对所购买的助农产品总体上是满意的,但仍有改善空间。究其原因,可能是电商助农模式仍存在产品信息不透明、监管不足等问题,导致消费者收到的农产品质量不符合预期,购买体验不佳。在7 个意义明确的主题中,积极情绪排名前3 的主题是物流服务、助农活动和商家服务,积极评论占比分别为:86.16%、86.15%、83.16%。不难发现,消费者对助农产品存在一定的偏好,愿意以实际行动助力解决农产品滞销问题。消费者对物流服务和商家服务的满意度较高,这是因为随着农村电商的发展,快递物流乡镇覆盖率和配送速度得到提升。而且,平台已经形成较为成熟的售后体系,能够对消费者的合理诉求作出回应,提升购买体验。
对积极情绪和消极情绪的程度进一步划分,积极情绪和消极情绪程度分析如表5 所示。由表5可知,在总体的积极评论中,“一般”积极的评论数量为4 716 条,占总评论的32.61%,而“高度”积极的评论数量为2 880条,仅占总评论的19.92%,表明即便是在积极情绪中,消费者的满意度仍然还有很大的提升空间。在总体的消极评论中,“高度”消极仅106 条,占比0.73%,在各主题下消极评论中也存在类似的比例。说明在消极情绪中,消费者的用词仍不是完全否定,而是理性的批评。
表5 积极情绪和消极情绪程度分析表Table 5 Degrees of positive and negative sentiments
本文采用LDA 模型,基于抖音电商平台助农产品的在线评论数据,深度挖掘消费者关注的主题,并以此为依据进行相关扩展分析。研究结果表明:消费者对助农产品的关注点主要包括产品质量和价格、商家服务和物流服务、消费者感知价值、助农活动和县长支持等。因此“高性价比”+“优质的服务”+“高感知价值”+“高社会效益”是提升平台竞争力的要素。消费者对抖音电商平台上助农产品不同主题的情感倾向是不同的,总体满意但仍有改进空间。
(1)助农产品的高性价比是消费者关注的重点。在线评论主题中关注度排名第一的是“产品价格”,排名第二的是“产品质量”,在共现网络分析中,产品价格和产品质量联系紧密,说明消费者经常将二者结合在一起考虑,即性价比。而从情感分析可知,产品价格的积极情绪占比是所有主题中最低的,表明产品性价比是一个高关注度、低满意度的因素。因此,持续为消费者提供高性价比的助农产品,提升满意度是抖音电商平台成功的关键。
(2)平台及商家优质的服务是影响消费者满意度的重要因素。物流服务和商家服务的累计主题强度仅次于产品质量,通过共现网络分析,发现消费者具有再次购买的意向且对抖音平台购物体验满意度高。在情感分析中,物流服务和商家服务的积极评论占比分别排名第二和第三,同样表明消费者对服务是比较满意的。
(3)消费者对产品和服务的感知价值会影响其满意度。一般来说,当消费者认为产品或服务提供了他们需要的功能、品质和体验,并且超出了他们支付的价格,他们很可能会感到满意。消费者对助农产品的感知价值主要集中在味道、外观、分量等方面,同时具有对产品整体的基本判断(正宗、不值)。通过共现网络分析还发现消费者对包装比较满意,而对分量感受不一。在情感分析中,积极和消极情绪占比都排名第四,是中等关注度、中等满意度的因素,还需通过加强平台助农产品的品质提升消费者满意度。
(4)助农产品的社会属性也是影响消费者购买体验的重要因素。助农活动和县长支持主题强度较高,体现了消费者对助农产品的特别关注。然而,消费者对二者的情感倾向并不一致。一方面,在所有主题中,对“助农活动”的积极情感占比最高,表明消费者购买助农产品不仅仅出于对产品的需要,更是对国家扶贫助农事业的支持。另一方面,消费者对“县长支持”的积极情绪占比排名倒数第二,而消极情感占比排名第一。究其原因,可能是因为县长身份的权威性,使得消费者收到的产品不如预期时,更容易产生被欺骗的感觉;也可能是因为县长没有受过专业训练,对产品的介绍不够严谨、详尽,导致消费者不够满意。
(1)持续且深入地挖掘消费者的关注点。把握消费者的需求痛点,才能不断提升产品质量和相关服务,制定合理的营销策略,将消费者潜在需求变成平台增长的突破口。
(2) 加强供应链管理,提供优质低价的农产品。平台和商家应重点关注产品的“质量”和“价格”这两个要素,做好助农产品的筛选和监督管理。加强农产品供应链管理,提升生产和流通效率,同时强化质量监控,从根本上保证助农产品性价比。
(3) 把握“电商助农”的宣传大方向。抖音平台助农板块是为了缓解新冠疫情对农产品生产流通带来的不利影响而设立的,平台应当借助自身的流量,加大“助农产品”宣传力度,让更多消费者了解各地区的优质农产品。同时树立“电商助农”的正面形象,实实在在解决各地农产品滞销问题,响应国家扶贫政策,促进平台健康发展。
(4) 加强对主播的专业培训,强化直播间的监督管理。主播已成为影响消费者购买意愿的关键因素之一,因此无论是专业主播还是类似“县长”这样的临时主播,平台都应该加大对其业务能力、专业知识的培训,使其能够正确描述产品的特征和使用感受,让消费者更好地了解产品特性,最终做出合理的购买决策。其次,应当加强平台直播管理,打击虚假营销、攀比打赏等直播乱象。只有这样,抖音电商平台的助农产品销售才能获得可持续发展。