基于文本挖掘的云南三七品牌形象监测及危机管理

2022-04-14 07:41王道涵柏孝燚
湖北畜牧兽医 2022年3期
关键词:词组危机监管

谢 杰,王道涵,柏孝燚,周 兵

(1.云南农业大学,a.大数据学院;b.理学院,昆明 650201;2.山东文化产业职业学院,山东 青岛 266699)

互联网技术的快速发展,使得公众的生产生活方式发生了极大改变。网络购物凭借其选择性多、价格优惠、方便快捷、省时省力等优势和特点,逐渐成为人们日常购物消费的主流方式。但由于互联网的不确定性、网络食品监管规范的不健全等问题的存在,使得中国网购食品质量方面存在众多隐患。除此以外,随着传统农业向现代化农业的转变,中国农业发展已经进入了新发展阶段,国家各级单位和民众都已愈发重视“三品一标”建设与发展,目前正在全力打造具有无公害、绿色、有机和地理标志性质的农产品品牌[1]。因此,采取科学有效的质量监管手段来对假冒伪劣、不合格产品进行有效打击,保障食品的良好质量,不仅关系到广大人民群众的身心健康,更关系到人民群众对党和政府监管能力、执政能力的评价与信任。

国外在食品质量监管方面的工作和研究起步较早,已形成一定规范。如德国强调从“农田-餐桌”的全过程,主要通过建立追溯体系来加强产品质量的监管。并提出将国家政府部门、社会中介组织和第三方机构力量进行整合,形成综合管理监管模式进行监管。美国采用“多部门分工”的监管模式,各部门各司其职,相互配合,强调法律法规的完善。日本采用“分段监管”的模式,分环节确定政府部门的监管职责,强调记录保存制度以及严格的市场准入制度[2]。国内相关研究较国外晚一些,且多为理论研究,主要集中在网购食品交易过程和交易监管过程中出现的问题提出解决对策,往往涉及到消费者、网购食品经营者以及政府相关职能部门等多方主体的权利与义务[3]。

本研究拟将云南省八大本土药材之一的三七品牌在天猫、京东商城上的消费者购买评论作为研究对象,整体思路是采用文本挖掘技术和产品品牌形象监管及危机等级管理方法,综合运用TF-IDF 算法、依存句法、语义相似度聚类算法以及细粒度情感分析方法,从监管部门的角度出发,对消费者购买三七后的评论进行分析,挖掘出三七商品在产品质量的各指标危机等级以及产品形象特征,以此来帮助监管部门及时了解各品牌三七质量监管方面的情况,并针对具体存在的问题进行针对性检查,从而达到保证产品品牌良好形象、弥补监管漏洞、健全监管制度的目的。

1 数据分析处理

1.1 数据来源

研究对象选定为云南省高原特色农产品之一的三七,三七作为云南省农业重点发展的八大产业中药材的一个重要元素,已成为了带动云南经济发展、打响品牌的重要产品。如图1 所示,在云南省近2 年评选的十大名品中,中药材这一评选栏目下,每年三七都占大约20%的比重。且在中国品牌网评选出的2021 年三七十大品牌排行榜中,云南省的三七品牌共有8 个,占总体的80%,足以证明云南省三七品牌影响力之大。加上几大品牌在天猫、京东平台上销量较高,评论数量较大,保证了研究的数据量充足。

图1 三七行业品牌排行榜

店铺的选择标准为官方旗舰店,具体选择为该店铺中综合评价好、评价数量高,同时在天猫、京东两大平台均进行销售的产品。在产品选定后,按照指定的规则方法,采用网络爬虫技术对店铺评论数据进行采集,但由于网络爬虫会在一定时间内对访问的目标站点发送大量的请求信息,以获得不同的数据信息,这在一定程度上会造成网站资源的消耗,大量且快速的请求,会对部分中小型网站造成负载,甚至会导致其服务器崩溃的现象[4]。为了防止部分爬虫程序对网站安全造成危害,确保网站正常工作,大量网站都采取了一些反爬虫机制,如监控IP 与访问量,当一个IP 在周期内访问量达到阈值时,将其判定为爬虫并禁止访问。此外,还可以限制数据展示量,如淘宝、天猫、京东等平台对产品评论数据进行了数量限制,只展示100 页的评论数据。三七原始评论数据采集如表1 所示。

表1 三七原始评论数据采集结果

1.2 数据预处理

首先对评论数据进行预处理工作,以方便后续研究的开展。具体清洗方法如下。

1)去除系统默认评论数据,如“此用户未填写评价内容”“此用户未及时评价”“系统默认好评”。

2)去除重复值,重复数据仅保留一条,其他的删除。清洗后结果如表2 所示。

表2 三七原始评论数据清洗结果

将评论数据采集后,利用Jieba 分词包的精确模式对评论数据进行分词,为后续研究做好数据准备。分词后,可以发现原本的句子已被切分成了单字和词组的形式,且对于各个词组能够较好地识别,切分效果较好。中文分词后的文本数据集如图2 所示。

图2 中文分词后的文本数据集

由于中文分词后的评论文本数据中仍然有部分无意义词组以及大量标点符号,在数据处理时会导致处理效率低,因此需要对其进行去除,使用停用词过滤处理。停用词过滤结果如图3 所示。

图3 停用词过滤结果

2 三七质量指标构建及形象分析

2.1 设计思路及框架流程

监测指标的选取对于形象监测与危机管理整体具有极大的影响,因此需要选用科学合理的方法来进行监测指标的选取。考虑到计算的复杂度和结果的有效性,首先通过TF-IDF 算法将部分词频虽高,但却无意义的词组去除。通过设定阈值,将能够较好地用于产品分类特征的词组提取出来,人工构建基础产品质量监测指标表。为了避免指标选取时个人主观性的影响,由3 名研究者合作共同完成基础监测指标表的构建。考虑到形容词及动词中也含有部分能够体现产品形象特征的词组,因此在构建品牌监测指标过程中,词性标注环节将形容词及动词也加入进来。之后利用相似度聚类等方法,将提取出的词组与监测指标表中的基础监测指标进行相似度计算,将符合条件的词组提取出来,完成指标的构建。指标监测构建流程如图4 所示。

图4 监测指标构建流程

在完成监测指标所属类别聚类分析后,还需对指标形象特征表现情况进行提取和分析,挖掘出各监测指标对应的形象特征情况,并通过情感分析方法对各个形象特征所具有的危机值进行计算,得到该监测指标的危机等级,进而了解该产品在质量方面的形象特征表现和危机情况。形象分析流程如图5 所示。

图5 形象分析流程

2.2 监测指标构建

数据预处理后,为了从评论数据集中选出贡献度高、能够较好地表达评论实际内容的词组作为二级指标,需要逐步对评论数据进行过滤,减少无关数据对最终试验结果的影响。传统的指标选取是依据词组中词频的高低进行选择,但该方法会使得大量词频高、但却无实际意义的词组被选中。为了能够提高试验结果的准确率,需要利用TF-IDF 算法对评论数据中的词组进行初步过滤,该算法能够较好地对词频高但却没有实际价值、或实际价值低的词语进行过滤,并将能够较好地表现本身含义的词语保留下来。TF-IDF 提取结果如图6 所示,根据提取结果可知,该算法能够较好地对词频高但却没有实际价值、或实际价值低的词语较好的进行过滤,从而将具有实际意义的词组进行筛选。

图6 TF-IDF 提取结果

由于作为监测指标的词大多为名词,能够表现产品形象特征的词组大多为名词、形容词以及少量动词性词组,因此在构建基础监测指标时,对名词和名词性词组进行选取可以进一步降低数据处理分析的维度,达到更加精确分析的目的和效果。通过调用Pyltp 的词性标注工具,对去除停用词后用于构建领域词典的评论数据集词组进行词性标注,为监测指标以及形象特征的选取做准备。标准结果如图7所示。完成词性的标注后,接下来需要将用于构建质量监测指标的名词及名词性词组从大量标注过的词组中提取出来。

图7 词性标注结果

在基础监测指标表的构建完成前提下,对于品牌监测指标,需要利用相似度聚类算法来实现。在正式开始监测指标聚类前,考虑到监测指标的选取虽然以名词及名词性词组为主,但仍有部分形容词及动词与产品监测指标相关,能够作为质量监测指标。由于该部分形容词词组与相近的名词性词组表达含义接近,因此在构建基础监测指标时未考虑。但在品牌监测指标构建时,要将与产品质量相关的监测指标尽量多的进行整理和归纳,以保证试验结果的准确性。提取结果如表3 所示。

表3 部分词组提取结果

接下来完成监测指标的聚类,首先利用Word2vec工具对中文分词后的评论数据集进行词组离散向量训练,之后使用余弦相似度聚类算法将词组离散向量进行聚类,完成词组的聚类。由于词组在通过Word2vec 训练后,得到的离散向量可以通过向量空间距离表示词组之间的相似性,因此可以通过利用余弦相似度计算公式表示两个词组之间的相似程度。Word2ve 的调用通过Gensim 库来实现,模型采用Skip-gram 模型。

在获得词组的空间向量后,即可结合监测指标表,利用Word2vec 的余项相似度计算方法,对制定的监测指标进行相似词组聚类,从评论词组中提取出与各监测指标相近的词组,完成监测指标的聚类工作。即获得各品牌监测指标,例如盘龙云海部分监管指标提取结果如表4 所示。

表4 盘龙云海部分监管指标提取结果

2.3 具体实施及验证

通过借助Pyltp 工具,编写Python 语言程序后,即可对评论数据进行句法分析,挖掘出评论数据中各词组之间的相关依存关系。

消费者在对购买商品评论时会对商品的各方面表现情况进行评价,而利用情感分析技术可将其对产品质量方面的情感倾向提取出来。因此,本研究通过参考张强[5]给出的情感值计算方法,构建了一种衡量商品情感倾向及情感值计算的方法,利用情感值的高低来表示危机情况。

式中,i表示i个词组组合,Si表示i个词组的情感值,α的值为0 和1,当词组中含有否定词时α的值为1,否则为0,Mi表示i个词组组合中程度词的权重值,Ei表示i个词组组合中词组的情感极性。

公式(1)中针对单个词组组合的情感值进行了计算,得到了单个词组组合的情感值,为了能够了解一级指标的危机情况,需要将一级指标中的所有二级指标危机值进行计算,得到一级指标的平均危机值。

式中,Fj表示第j个一级指标的平均危机值。在得到词组组合的情感值后,通过对照制定好的危机等级表来确定危机等级,参考了陈诚[6]的危机等级划分方法,进行危机等级表的制定。根据各级监测指标得分,对得分结果划分为4 个等级:无危机、轻危机、中危机、重危机[7]。具体危机等级制定如表5所示。

表5 危机等级划分

借助依存句法提取出监测指标元组后,利用公式(1)对提取出的监测指标元组的危机值进行计算。以<质量挺好>为例,首先对元组内容进行识别和划分,判断监测指标内容、情感极性词、情感程度词以及否定词。该元组中监测指标内容为质量,情感进行词为好,通过调用情感极性词典,发现该词极性为正面极性,则对应情感值为1;情感程度词为“挺”,通过调用情感程度词典,发现该词属于第四类,程度权重值为0.48,按照公式(1)的计算方法,该词组情感值为0.48×1=0.48。按照相同的计算方法,对聚类后该监测指标的所有元组情感值进行逐个计算。计算完成后,按照公式(2)的计算方法,对所有元组情感值进行累加求平均值,得到该监测指标的最终结果,如表6 所示。

表6 质量监测指标危机值

七丹各项监测指标平均值最高,其次为云南白药以及云三七品牌。总分最低的为苗乡和高田。根据试验结果,在一级监测指标方面,不同品牌产品具有各自优势。如在产品质量监测指标方面,七丹以及云南白药品牌分值最高,表明该品牌三七产品在产品质量、三七粉质、杂质残留以及份量等方面表现较好;而在产品效果这一指标中,云三七分数最高,表明大多数消费者使用该品牌三七产品后,效果较好。

低危机等级的具体危机风险项提取结果如表7所示。

表7 低危机风险项提取

苗乡与高田总体危机等级为轻危机,盘龙云海总体危机等级为无危机,仅产品质量这一监测指标为轻危机,因此前两个品牌需要监管部门给予更多的关注,着重进行问题排查。针对盘龙云海品牌产品在产品质量这一监测指标存在的风险项,监管部门要检查产品加工工序完整,重点检查产品掺杂问题。而针对苗乡品牌,则需要关注以次充好问题,同时关注产品描述问题,检查虚假宣传问题。高田品牌产品存在的问题与苗乡品牌存在的问题相似,需重点检查以次充好问题以及虚假宣传问题,同时还需检查产品变质以及存在杂质多的问题。

3 监管建议

监管部门除了需要对存在风险的产品进行针对性的检查外,还需采取相应的措施来辅助开展食品质量监管工作[8]。

3.1 责任落实,反向追责

产品在到消费者手上前,需要经过层层工作人员的检验和传递,每一层都需要做好对应的检验工作,并承担对应的责任。店铺从厂家引入产品时,需要对产品的质量情况进行检验,厂家对店铺负责。消费者若发现产品质量出现问题,则店铺具有不可推卸的责任,店铺向消费者负责,而品牌商家则对店铺负责[9]。通过本研究方法为监管部门指明存在的问题后,监管部门便可以展开针对性的问题排查,确定问题后,逐层问责[10]。通过落实责任归责制,可以进一步提升每层人员的监察意识和责任意识,保证产品良好的产品质量,减少产品质量问题的发生[11]。

3.2 构建一个地方品牌网络形象实时监管系统,进行实时采集,智能分析

利用网络爬虫技术,可将各大品牌的产品质量相关信息实时采集,如产品价格,并利用智能分析算法进行分析,由后台计算得到各项监测指标变化情况,帮助监管部门实时掌握产品质量各方面的变化,以此达到质量监管的效果和目的[12,13]。

3.3 信息发布,明辨真假

大量消费者在购买三七产品后,缺乏相应的专业知识,无法辨别所购产品真假和质量好坏。而劣质产品非但使用效果差,更有可能对身体健康造成极大危害,食用后产生副作用[14]。因此,监管部门应在官方平台上,发布权威、可信的产品真伪以及质量好坏的辨别方法,以此提高消费者的产品真假、质量好坏的辨别能力,形成良好的产品质量监督氛围,进一步健全监管机制,提升政府的公信力。

4 结论

随着互联网普及率的飞速增长,大数据等科技得到了极大的推进。网络购物凭借着突破时间空间、选择性多、方便快捷等特点,改变了人们的生活,受到了越来越多的消费者喜爱。网购食品市场一片大好,前提是要保证食品质量。食品质量问题频繁发生,影响了消费者的身心健康,同时也造成了人们对于食品质量现状的担忧、对政府工作能力和监管水平的怀疑,影响了政府的公信力。

在此背景下,本研究从市场监管部门的角度出发,以云南省高原特色农产品三七为研究对象,提出了质量形象监测及危机管理方法,用于对政府推广的云南高原特色农产品品牌产品的质量进行有效监管,防止品牌商品出现质量问题,加快云南省绿色食品牌 建设[15]。

猜你喜欢
词组危机监管
高等教育的学习危机
“危机”中的自信
监管
监管和扶持并行
放开价格后的监管
副词和副词词组
实施“十个结合”有效监管网吧
危机来袭/等