邵小彧,李冬梅,刘云强
(四川农业大学管理学院,成都 611130)
新型冠状病毒感染的肺炎疫情自爆发以来,对人民群众的生命安全造成了重大威胁,对国民经济特别是消费领域、服务业领域造成了巨大冲击[1]。值得关注的是,与人民生活息息相关的农产品价格波动明显。2020年3月16日国务院新闻办公室举行的1—2月国民经济运行情况发布会中指出,受新冠肺炎疫情影响,粮食价格上涨0.6%,鲜菜上涨13.8%,猪肉上涨125.6%,鲜果下降5.3%。疫情期间,全国主要农产品供给充足,但由于各地实行进出管控,恐慌情绪导致居民开始疯狂抢购,需求激增使得农产品供需失衡,价格产生波动[2]。因此,研究新冠肺炎疫情对农产品价格波动的影响,对于把握当前农产品价格局势,预测未来变化具有重大意义。
现有研究主要从供求视角、产业链视角[3-4]研究农产品价格的波动情况。国际原油价格[5-7],国际农产品价格[8],农业生产成本[9],期货市场[10],货币政策调整带来的货币供应量变动、通货膨胀[11-12]等因素均会对农产品价格的波动产生影响。也有少量研究关注突发事件带来的信息冲击对农产品价格波动产生的作用[13-14]。新冠肺炎疫情期间,具有易用性、及时性和公开性的新浪微博成为公众获取信息和发表观点的重要平台[15-16]。因此本研究旨在运用文本挖掘技术,发掘微博平台上公众讨论的主题及其情感倾向,进一步研究其对农产品价格的影响。
社交媒体文本挖掘已经在突发公共卫生事件研究领域有所应用[17]。A.J.Lazard等对埃博拉期间相关推特进行收集、分类和分析,发现公众关心的内容包括病毒的症状和寿命、疾病的传染和发生、出行安全以及个人防护[18];E.M.Glowacki等对莱卡病毒传播期间公众的推特以及疾病控制和预防中心(CDC)的回应进行分析,结果表明公众和疾控中心都十分关注寨卡病毒的传播,但公众更关注的是它对孕妇和新生儿的影响,而疾控中心更关注的是病毒的症状和防控知识普及[19]。此外,社交媒体的文本挖掘还在企业管理中起到重要作用,具体说来,其被应用于品牌管理[20]、网络营销[21]等方面。在政治方面,社交媒体的文本挖掘常常用来分析、预测选举结果[22-25]。以上社交媒体的文本挖掘主要集中在提炼用户讨论主题,研究情感方向。在社交媒体文本挖掘的应用中,还有一类不容忽视,那就是进行股市预测[26-28]。这些研究采用VAR模型、Granger因果关系检验等方法研究情绪与股票指数收益率等指标的关系,预测股票市场价格变化[29-35]。
综上所述,社交媒体的文本挖掘在突发公共卫生事件领域的主要应用是发掘用户的讨论主题,了解民众诉求,从而及时采取有效的相应措施。然而,这些研究主要是从定性的角度进行分析,缺少定量研究。除此之外,文本挖掘还包括意见挖掘,即情感分析。通过情感分析可以对文本进行情感打分,从而把非结构化的文本数据转化为结构化数据。受投资者情绪对股票市场的预测分析的启发,本研究聚焦于疫情期间公众情绪对农产品价格的影响,研究思路如下:在生命周期理论的基础上将新冠肺炎疫情发展划分为4个阶段,运用文本挖掘技术获取微博数据,提炼出各个阶段的讨论主题,进一步运用情感分析方法对每条微博进行情感打分,按天归类展示公众的情感变化。在此基础上,运用VAR模型和格兰杰因果关系检验验证新冠肺炎期间情感倾向与不同竞争属性农产品(包括畜产品、水产品、蔬菜、水果)价格波动之间的关系,为制定疫情期间农产品价格调控政策,保障人民生活和农产品市场有序运作提供可供参考的理论解释。
为研究新冠肺炎期间公众情感与农产品价格波动的关系,首先,通过网络爬虫获取微博数据,并对获得的文本数据进行预处理。随后一方面将处理后的数据按照疫情发展划分为4个阶段,通过LDA模型分析各个阶段公众讨论的主题[36];另一方面对每条数据进行情感分析[37],并按天归类计算均值与各类情感倾向微博数量,形成公众情感时间序列。农产品批发市场积聚大量交易信息,是农产品价格形成的主要平台,能够相对真实地反映农产品的商品价值和市场供需规律[14]。因此,本文整理农产品批发市场价格形成农产品价格时间序列,将情感时间序列和农产品价格时间序列都构建VAR模型,进行格兰杰因果关系检验得出结论[38]。研究框架如图1所示。
图1 新冠肺炎疫情与农产品价格波动研究框架Figure 1 Framework for research on COVID-19 and agricultural price volatility
1.2.1 公众情绪变化与农产品价格波动的关系
根据均衡价格理论,在未受到外部冲击的情况下,农产品的市场价格会在供给和需求的相互作用下趋于均衡[39]。而已有研究表明突发事件等特殊情况带来的信息冲击会导致农产品价格变化[13-14]。情感具有动态性,网民的情感波动往往和突发事件的走向紧密相关[40]。疫情期间公众受到有关地区封城、交通管制等消息的影响,情绪随疫情形势波动剧烈,在恐慌心理下出现非理性囤积生活物资的行为。而农业农村部市场与信息化司司长唐珂2020年3月10日表示,疫情期间全国主要农产品供给稳定充足。在供给不变,需求急剧增加的情况下,供需失衡导致农产品价格波动。此外,已有研究表明,媒体负面报道会影响消费决策,导致相应农产品的需求降低,而媒体中性或正面的报道往往不会对需求产生明显的影响[39]。且负向情绪在突发公共卫生事件的爆发期最为强烈,蔓延期开始减弱,随着舆情发展到衰退期,中性和正向情绪甚至比负向情绪更强烈[41]。因此负向情绪更能反映疫情的发展状况,致使农产品的需求发生变化,价格产生波动。因此,做出如下假设:
H1a:公众情绪变化是引起各类农产品价格波动的格兰杰原因。
H1b:公众负向情绪对各类农产品价格波动的影响相较于整体公众情绪更加明显。
1.2.2 公众负面情绪变化与不同竞争属性农产品价格波动的关系
考虑畜产品、水产品和蔬菜以及水果4类农产品。在公众的畜产品消费结构中,猪肉占我国肉类总消费的62%以上[42],其需求弹性较小,而牛肉、羊肉由于价格较高,可替代性较强,需求弹性也较强。面对严峻的疫情形势,公众由于过于紧张,大量囤积超过短期需求的生活物资,猪肉作为公众日常生活的必需品被大量抢购,而牛肉、羊肉的消费决策却不会发生大幅度改变。因此公众情绪的变化可能会引起猪肉价格波动,而不会引起牛肉、羊肉的价格波动。其次,已有研究表明,当某产品受突发事件冲击时,其替代品的价格或许会受到更深、更大的冲击[43]。水产品作为畜产品的替代品,在疫情期间,公众因为恐慌情绪,为了减少出门次数,将其作为补充物资大量采购。价格较为低廉的淡水鱼,例如白鲢鱼、鲤鱼和鲫鱼因为需求急剧增加,价格发生波动;而价格较高的海水鱼例如大带鱼,与牛肉、羊肉相似,预期价格不会产生太大波动。蔬菜由于含有多种维生素且价格较低,在人们的生活中不可或缺。从需求上看,1月处于疫情爆发时期,公众对疫情认知不足,恐慌情绪强烈,因此多地出现超市蔬菜一抢而空的现象。从供给上看,由于全国大部地区气温适宜,利于蔬菜生长发育,且“稳产保供”措施有力有序推进,蔬菜供给总体有保障。因此,蔬菜价格可能产生波动。水果作为提高生活品质的附加品,具有时效性,易腐坏。面对严峻的疫情形势,公众恐慌情绪下较多囤积生活必需的食品,而水果类产品不会被首要考虑,滞销使得总体价格发生波动。根据以上分析做出如下假设:
H2a:公众负面情绪变化是引起猪肉价格变化的格兰杰原因,而不是引起牛肉、羊肉价格变化的格兰杰原因。
H2b:公众负面情绪变化是引起白鲢鱼、鲤鱼和鲫鱼价格变化的格兰杰原因,而不是引起大带鱼价格变化的格兰杰原因。
H2c:公众负面情绪变化是引起蔬菜价格变化的格兰杰原因。
H2d:公众负面情绪变化是引起水果价格变化的格兰杰原因。
1.2.3 公众负面情绪变化与农产品价格波动关系的地区差异
已有研究表明,在突发事件的发生地公众对事件的关注度更高,讨论更为火热[44]。由于新冠肺炎疫情在各个省市严重程度不同,疫情严重地区公众情绪起伏程度较大,恐慌情绪更为严重,非理性囤货苗头更为突显,农产品价格也因此在短期内产生较大波动,因此做出如下假设:
H3:疫情严重地区公众负面情绪变化对农产品价格波动的冲击更大。
通过Python模拟微博的高级搜索功能,以“新型冠状病毒”为关键词,抓取2020年1月9日—2020年3月4日的原创微博,得到微博文本、发出时间、转发量、评论量、点赞量、用户ID、所在地区和性别等数据,进一步对获得的原始数据做预处理以便进行分析,包括数据清理、分词以及去停用词。去停用词对照哈尔滨工业大学停用词表,包括1 893个停用词。调用Jieba分词系统对清理后的数据进行分词,为避免专业词语被错误分割,将搜狗词库的疾病预防工作专业词库和归纳的新型冠状病毒相关术语载入用户自定义词典[40],以提高分词效果。
突发事件的演化过程往往具有一定的生命周期,因此,研究突发事件常常根据生命周期理论,将突发事件划分为几个阶段。依据关注度这个定性特征来划分演化阶段是常用的方法,研究多以百度指数来反应关注度。为提高阶段划分的准确度,本研究综合百度指数和微博数量2个指标,将新冠肺炎疫情发展划分为4个阶段,如图2所示。2020年1月9日,武汉不明原因肺炎病原体被判定为新型冠状病毒,但此时疫情还未被大部分人知晓,该阶段被定义为潜伏期;自1月19日始,有关新冠肺炎的信息和新闻迅速传播,在微博上爆发了大规模的讨论,因此该阶段被划分为爆发期;截至1月30日,新冠病毒的基本情况已被大多数人了解,进入线下防控,线上持续稳定讨论的阶段,定义为蔓延期;2020年2月15日后,有关新冠肺炎的信息多为每日疫情播报,讨论进入衰退阶段。
图2 新冠肺炎疫情发展阶段划分Figure 2 The stages of COVID-19 development
公众的讨论内容是舆情研究的重点,为此利用LDA模型对各阶段微博主题进行聚类,研究新冠肺炎疫情期间公众关注的主题。通过主题分布可视化结果确定4个阶段的主题数分别为6、7、7和4[45]。得到不同阶段的主题特征词,并结合主题特征词对应的微博内容对主题进行归纳概括,如表1所示。潜伏期的主题主要集中于对新冠肺炎的初步认识;爆发期主题多样,包括对新冠病毒的进一步认识、普及预防措施和公众对疫情的情绪表达等;蔓延期出现了有关新冠病毒传播的深入研究结果,同时也出现了诸如“双黄连口服液可抑制新冠病毒”“宠物传染新冠病毒”等谣言;衰退期主题集中在复工复产以及有效治疗方案上。特别的是,在爆发期出现了“肉蛋”这样的关键词,说明有关农产品的内容在公众的讨论主题中也占有一席之地,需要对新冠肺炎疫情期间的农产品价格进行研究。
表1 分阶段主题概括Table 1 Recognizing the topics of each stage
情感分析将文本数据转化为数值型数据,为建立公众情绪与农产品价格的数学模型提供了可能性。使用中文自然语言处理库Snow NLP进行情感分析,取值范围在0~1之间,接近0说明该条微博表现的情感越负面,反之越正面。将情感分析后的微博文本按天归类,计算每天的情感平均值,得到的情感值时间序列如图3所示,记为Sentiment。参照阳玉 堃 的做法[46],将情感值大于0.6的微博文本判定为积极,小于0.4的微博文本判定为消极,处于0.4~0.6之间的微博文本判定为中性,将微博划分为3类。由图可知,在潜伏期由于公众对新冠肺炎病毒信息掌握得很少且片面,情感倾向随着信息的极性变化产生较大波动;爆发期刚开始,由于公众对疫情风险有了一定程度的认知,焦虑、恐慌情绪爆发,整体表现为负向情绪,但随着疫情相关知识的普及,防控措施的积极部署,情感值显著上升;蔓延期和衰退期,公众情绪几乎始终保持在中性范围内。公众情感变化与分阶段的讨论主题是互相映照的。计算每1 d积极、中性和消极微博的数量,形成微博条数时间序列,分别记为 Positive、Negative、Neutral,结果如图3所示。根据图3可以明显观察到消极微博条数与图2中疫情关注度曲线走势十分相似,而积极和中性微博条数在中后期较高。以上研究表明,公众情绪随着疫情发展产生动态变化,且消极微博条数更能反映疫情的发展状况,印证了假设H1a、H1b提出的合理性。
图3 新冠肺炎疫情公众情感变化趋势Figure 3 Trends in public sentiment in the COVID-19 epidemic
参照农业农村部市场与信息化司每日发布的农产品批发价格200指数中提及的农产品,选取猪肉、牛肉和羊肉作为畜禽产品研究对象;选取鲫鱼、鲤鱼、白鲢鱼和大带鱼做水产品研究对象;将国家重点监测的28种蔬菜按照价格高低分为3类,结合《中国农产品价格调查年鉴》中统计的农产品种类,最终选取大白菜、黄瓜和豆角做研究对象;考虑季节性问题,从国家重点监测的6种水果中选取富士苹果、菠萝和鸭梨作为研究对象。通过农业农村部信息中心搜集每种农产品每日的全国平均批发价格并进行整理,得到农产品价格时间序列,描述性统计如表2所示。从平均值可以看出,畜禽产品中猪肉与牛肉、羊肉价格相去甚远,大带鱼价格是其他3种水产品的2~4倍。蔬菜、水果均价相近,3种蔬菜存在3档价格,而3种水果价格都比较低。综上可知,即使是同类农产品,具体品种不同,结果也会产生差异,验证了假设H2a、H2b提出的合理性。此外,从标准差上看,猪肉和大带鱼价格波动较大。
表2 农产品价格描述性统计Table 2 Descriptive statistics of agricultural product prices 元/kg
考虑到公众情感数据和各个农产品价格数据之间量纲不同,不具可比性,因此对两类数据进行Z-Score标准化处理。此外,为了保证实证结果的有效性,避免虚假回归问题,对公众情感时间序列和农产品价格时间序列分别进行ADF单位根检验,结果表明时间序列平稳,可以进行格兰杰因果检验。
由于格兰杰因果关系检验对滞后阶数的选择十分敏感,首先构建VAR模型来确定最优滞后阶数。考虑到赶集一般每周一次,因此若公众情感与农产品价格变化存在格兰杰因果关系,在滞后7 d内应当能够显现出来。将最大滞后阶数设定为7,根据LR、FPE、AIC、SC和HQ五大信息准则确定最优滞后阶数。分别构建公众情绪平均值与各农产品价格以及消极公众情绪数量与各农产品价格的VAR模型,进1步进行格兰杰因果关系检验,结果如表3所示。表3中每个单元格前面的数字代表根据以上方法确定的最优滞后阶数,后面的数字是P值,若P值小于0.1则说明公众情绪值/负向情绪数量变化是该农产品价格变化的格兰杰原因。
表3 公众情绪与各农产品价格格兰杰因果关系检验结果Table 3 Granger causality test results of public sentiment and agricultural product price
从农产品种类上看,对于畜禽产品,公众情绪值变化是猪肉价格波动的格兰杰原因,而不是牛羊肉变动价格变化的格兰杰原因。负向情绪数量变化是猪肉价格变化的格兰杰原因在10%水平下显著,说明公众情绪变化会引起猪肉价格的变动,验证了假设H2a的前半部分;而负向情绪数量变化不是牛肉价格变化的格兰杰原因在10%的显著性水平下被拒绝,负向情绪数量变化不是羊肉价格变化的格兰杰原因P值也接近0.1,说明负向情绪变动会引起牛肉、羊肉价格的波动,假设H2a后半部分被拒绝。我国人民生活水平的提高以及疫情带来的群体性恐慌情绪使得牛肉、羊肉也作为补充食品被大量抢购。对于水产品,公众情绪值变化不是鲫鱼、白鲢鱼、大带鱼价格变化的格兰杰原因,却在10%的显著性水平下影响鲤鱼价格的变化。负向情绪数量变化是鲫鱼、鲤鱼、白鲢鱼价格变化的格兰杰原因分别在1%、1%和5%的显著性水平下被接受,不是大带鱼价格变化的格兰杰原因也被接受,假设H2b被证实。对于蔬菜类农产品,首先公众情绪值变化不是黄瓜、大白菜价格变化的格兰杰原因,却在1%水平下显著影响豆角价格的波动。负向情绪数量变化是28种蔬菜平均价格变化的格兰杰原因在10%的显著性水平下被接受;负向情绪数量变化是豆角、黄瓜、大白菜价格变化的格兰杰原因均在1%的显著性水平下被接受,说明公众负向情绪变化会引起蔬菜价格的变化,假设H2c被证实。对于水果类农产品,首先公众情绪值变化不是各类水果价格变化的格兰杰原因。负向情绪数量变化是6种水果平均价格变化的格兰杰原因在10%的显著性水平下被接受;负向情绪数量变化是苹果价格变化的格兰杰原因在1%的显著性水平下被接受,苹果作为产量最大的水果之一,受到的影响更为严重。其他假设均被拒绝,假设H2d没有得到证实。
从滞后阶数上看,肉类整体滞后阶数较小,而蔬菜整体滞后阶数较大。说明肉类价格的变动对于公众情绪变化的反应较为灵敏,而蔬菜价格的变动往往要在接近1周才能反映出来。各类农产品的研究结果表明,公众情绪值变化并不全是各类农产品价格变化的格兰杰原因,假设H1a没有得到证实;负向情绪数量验证情绪变化与农产品价格的关系效果比用公众情绪值验证更显著,假设H1b被证实。
以上研究是基于全国范围进行的,但由于疫情对各地区影响程度差异较大,疫情严重地区公众情感与农产品价格变化之间的关系还需进一步验证。根据百度提供的新冠肺炎疫情大数据,湖北、广东、河南、浙江和湖南是受新冠肺炎疫情影响最严重的5个省份。因此,将挖掘到的微博信息和情感分析结果与微博发出者所在地区逐一对应并按天归类,分别计算出5个省份每天的负向公众情感数量,得到公众情感时间序列。从全国农产品商务信息公共服务平台收集并整理各省的农产品价格数据,得到各省各种农产品的价格时间序列。实证分析过程与前面的研究相似,结果如表4所示,空白处对应的农产品价格数据缺失。
由表4可知,对于畜产品,不同于对全国范围内的研究,负向情绪数量变化不是猪肉、牛肉价格变化的格兰杰原因,而猪肉、牛肉价格变化是负向情绪数量变化的格兰杰原因分别在10%、1%的显著性水平下被接受,即猪肉、牛肉的价格变化领先于公众情感的变化。出现这一结果的原因分析如下:由于全国范围内的农产品批发市场价格会平滑掉变动较大的省份,分省来看,猪肉、牛肉市场价格的变化比社交媒体上公众情绪的波动更为敏感,因此通过猪肉、牛肉价格的变化可以迅速感知疫情的发展状况。对于蔬菜和水果类农产品,分省份的格兰杰因果关系检验结果与全国范围内的检验结果相似,假设H3没有得到证实。
表4 5省负向情绪数量与各农产品价格格兰杰因果关系检验结果Table 4 Granger causality test results of negative emotion amount and agricultural product price of five provinces
为排除春节因素对农产品价格变动的影响,对应本文的研究时段,搜集2019年1月20日—3月19日的各农产品价格数据,形成时间序列,经过标准化处理、平稳性检验后与前文的公众情感时间序列构建VAR模型,进行格兰杰因果关系检验。检验结果表明,负向情绪数量变化与2019年各农产品价格变化互不影响,因此用负向情绪数量衡量公众情感则可以排除春节因素对农产品价格波动产生的影响,假设H1b再次被证实。
本研究通过对微博“新型冠状病毒”相关内容进行文本挖掘,一方面研究疫情发展各个阶段的网络舆情内容,另一方面构建VAR格兰杰因果关系检验模型研究公众情感与农产品价格之间的关系。研究产生以下结论:
新冠肺炎疫情发展被分为潜伏期、爆发期、蔓延期和衰退期4个阶段。潜伏期的主题主要集中于对新冠肺炎的初步认识;爆发期主题多样,包括对新冠病毒的进一步认识、普及预防措施、公众对疫情的情绪表达等;蔓延期出现了有关新冠病毒传播的深入研究结果,疫情有关谣言也不断出现;衰退期主题集中在复工复产以及有效治疗方案上。对于疫情发展各阶段公众关注主题的研究有助于监测网络舆论,一方面了解民众诉求,准确采取措施进行部署;另一方面监控网络谣言,及时辟谣避免其广泛传播。研究结果表明,潜伏期和爆发期对新冠病毒有关知识和防控措施的普及较为到位,但在蔓延期仍有谣言不断出现造成公众恐慌,干扰公众判断。
在公众情绪与农产品价格关系的研究上得出以下结论。首先,公众情绪变化不仅是引起猪肉、蔬菜价格变化的格兰杰原因,也是引起牛肉、羊肉和水果价格变化的格兰杰原因。当面临严峻的疫情形势,公众出现恐慌情绪,猪肉、蔬菜是人民生活的基本需求,因此出现非理性囤货现象,价格产生波动。紧张情绪加上人民生活水平的提高,公众对牛肉、羊肉也不会产生消费抑制,反而会将其作为补充物资大量囤积。而水果因为易于腐坏且并不是必需品,公众恐慌心理下并不会首先考虑,需求减少导致价格波动。其次,相对于整体情感值,负向情绪数量的解释效果更好。由于有关部门对网络舆情的引导作用,除疫情刚开始爆发产生的消极恐慌情绪以外,在实施应急管理措施以及普及防控知识后,公众整体情绪倾向好的方向发展;而负向情绪由于限定在消极情绪的范围内,更能反映公众对疫情发展的实际感知状况,公众也正是根据这个感知来做出对各种农产品的消费决策。此外,对于疫情严重地区,猪肉、牛肉价格变动领先于公众情绪变化,因此可根据猪肉、牛肉的价格变动来预测疫情的发展状况。