突发涉水事件舆情及后续影响分析
——以嘉陵江铊污染事件为例

2021-11-01 03:51沙海潮杭婷婷成建国
水利信息化 2021年5期
关键词:嘉陵江舆情情感

沙海潮 ,冯 钧 ,杭婷婷 ,成建国

(1. 河海大学计算机与信息学院,江苏 南京 210098;2. 水利部信息中心,北京 100053)

0 引言

嘉陵江近年频繁发生铊污染突发水事件引起广泛关注。当下,互联网信息具有透明公开、易于收集和充分反映民众态度的特点,对互联网大数据进行分析逐渐成为探究某一事件舆情的主要手段,在辅助处理突发水事件方面也起到不可或缺的作用。气象数据是分析和描述区域气候特征及其变化的资料,能够客观真实地反映事件发生的自然场景。考虑疫情前后,相关行业态势也与事件发展息息相关。对于处理涉水突发事件,成建国等[1]利用热词和情感词包,构建情感向量,分析把握网络舆情倾向。张颖[2]综合文献和案例分析法及定量研究法对一系列涉水事件的网络舆情进行梳理研究。

目前,网络舆情情感分析常用的方法主要有基于情感词典[3]、机器学习[4]和深度学习[5-6]的方法。基于情感词典的方法,需要充分标注好情感词典,准备语法规则,利用知识库进行整合计算,如:王灿伟等[7]将情感符号与词典结合计算微博中情感值,并且实现主题归类;Ebrahimi 等[8]提出将情感极性与对象和立场融合,通过对数线性联合建模将三者联系起来。基于传统机器学习的情感分析方法已经普遍应用,该类方法在相关研究领域取得不错效果,主要通过统计文本中的特征,发现其与分类结果的关系,如:奠雨洁等[9]利用不同特征的提取方法,使用 SVM、随机森林和梯度提升决策树对特征进行立场检测,最后结合各类分类器进行融合;Pang 等[10]结合朴素贝叶斯、最大熵及支持向量机多种机器学习方法进行文本的情感分类。基于深度学习的方法主要将各类文本分词转化为词向量的形式,通过神经网络提取特征信息,完成文本的情感分析,如:张仰森等[11]通过 Word2Vec 词向量映射,提出利用基于 LSTM(Long Short-Term Memory)模型改进的 Bi-LSTM 实现双向注意力机制,进行文本情感分析。

由于 Bi-LSTM 模型对文本情感分析具有优秀的表现,而 Hacker news 事件热度排名算法在突出热门事件与遴选用户关注度较高的事件时表现出色,因此,本研究选取 2021 年嘉陵江铊污染突发水事件进行网络舆情分析,并结合该流域气象数据及相关涉事企业、地区疫情信息进行整体性的综合分析。

1 网络舆情信息分析

1.1 事件热度概念

事件热度是整体事件推文热度的集合,事件推文热度的依据是微博、今日头条、微信等相关自媒体平台中,作者发表的博客、新闻、文章等受到关注,点赞,转发的程度评价。

1.2 事件热度模型

目前学术界没有确定的标准指标体系定量描述事件推文热度。本研究将以下 3 个方面作为热度评价的一级指标[12]:

1)作者特征热度影响力。推文作者的个人信息对事件热度有着比较重要的影响,例如微博大 V、官方账号等作者的影响力要明显强于普通用户。Gupta 等[13]和 AI-Khalif 等[14]选择作者粉丝数、是否被认证等作为参考特征。本研究在此基础上对作者信息做进一步处理,选择粉丝数、发博率、活跃天数 3 个指标作为反映作者特征热度影响力的二级指标。

2)内容特征热度影响力。推文内容自身对热度影响力也有一定的贡献价值。Wang 等[15]和 Castillo 等[16]678-680将文本统计特征和长度、所含标签数等作为评价指标。本研究选择字数和图片充实度、出现及时性等指标作为内容特征热度影响力的二级指标。

3)传播特征热度影响力。推文传播特征最能够反映推文的影响力程度。Castillo 等[16]680-682选取 Tweet 转发深度作为信息传播特征,其中转发的次数和节点数等参数作为影响力因子。本研究补充选取点赞数、评论数、转发数 3 个指标作为传播特征热度影响力的二级指标[17]。

在比较各指标相对重要性的情况下,建立事件热度层次分析模型。通过文献调研与专家调查法[18-19],依据比例标度表,对事件推文热度 A 设定一级指标 Bi和二级指标 Ci,具体指标如表1 所示。

表1 事件推文热度评价指标

构建完成的推文热度 A 和一级指标的判断矩阵如下:

需要对判断矩阵检验满意一致性,一致性检验标准如下:

式中:λmax是矩阵的最大特征根;n 为矩阵的阶数;RI 为平均随机一致性指标;CR 为一致性比率;CI为一致性指标。

通过计算得出 CRA= 0.021 4,CRB1= 0.036 0,CRB2= 0.047 6,CRB3= 0.010 2,均通过一致性检验。计算得出事件推文热度各层次权重,对应 A 和Bi的权重 WA,WB1,WB2,WB3分别为

本研究将利用 Hacker news 排名算法进行进一步的模型构建,主要公式为

式中:r 为事件推文热度;P 为推文得票数;t 为天数;G 为重力因子,通常设置 G = 1.8。

从式 (3) 可以看出:越短时间内得票数越多的推文排名将会靠前,随着时间增加,推文排名会逐渐下降。

本研究依据层次分析模型与各层次权重矩阵,在 Hacker news 算法上加以修改,利用时间因子特性构建推文热度模型,具体公式如下:

式中:rB1,rB2,rB3分别为作者、内容和传播特征影响力热度。

利用式 (7) 进行数据标准化处理,将 3 类热度数值限制在 0~1 之间,计算公式如下:

式中:x,F (x) 分别为标准化前后的热度数值。计算事件推文总体热度公式为

1.3 舆情评论情感分析模型

Bi-LSTM 是在单向 LSTM 基础上改进而得的,LSTM 是一种时间递归神经网络,由 Hochreiter 和 Schmidhuber[20]在1997 年提出,适用于处理和预测文本之间的联系,被广泛运用在情感分析领域。

LSTM 典型结构如图1 所示,包括:

图1 LSTM 基本结构

1)遗忘门。决定上一时刻单元 ct-1保持到现在时刻单元 ct的程度。

2)输入门。该结构决定输入 Xt保留多少到下一时刻的 ct中。

3)输出门。该结构控制隐藏层 ht保存至下一单元的数值。

图1 中:输入 Xt为 Word2Vec 训练得出的参数矩阵;ht-1为上一时刻隐藏层输入;ft,it,,ot均为中间状态变量;ct,ht分别为进入下一 Bi-LSTM 单元的记忆层与隐藏层参数;σ,tanh 分别表示 Sigmoid 与双曲正切激活函数;模型参数每次更新的计算复杂度为 O (w),其中 w = wf+ wi+ wc+ wo,wi,wo,wc,wf分别为输入、输出、记忆及隐藏单元具体参数数量, w 为各单元参数总和。

本研究利用关键词查找等方法爬取涉水数据。在数据预处理中,利用 Jieba 分词等操作,通过Word2Vec 模型进行语料的词嵌入工作,将得到的词向量作为 Bi-LSTM 输入引入模型,涉水数据获取与处理流程如图2 所示。Word2Vec 包括 CBOW 和Skip-gram 2 种训练模型[21],本研究选用 Skip-gram模型进行训练。

图2 数据获取与处理流程

图3 是本研究应用中的基本 Bi-LSTM 模型结构。Bi-LSTM 作为循环神经网络的拓展,将前向 LSTMl和后向 LSTMr相结合,前向 LSTM 单元输出 hl,后向 LSTM 单元输出 hr,最后拼接前后向隐藏层得到输出 hc,进行逻辑回归得到情感倾向。Bi-LSTM 可以包含前向和后向的语料信息,克服单向LSTM 只能寄存单向信息的弱点,在处理上下文隐藏信息关系中有更好的表现。该模型输入为评论语料经 Word2Vec 训练成的隐藏层参数矩阵,输出为二分类的语料情感倾向。

图3 情感分析 Bi-LSTM 模型

2 嘉陵江铊污染舆情实验与分析

2.1 事件推文和舆情评论数据集分析

数据推文采用网络爬取百度、微博等媒体网站,以嘉陵江、铊污染、陇南和汉中等关键字进行爬取,共获取数据 4 901 条。经整理,得到的数据集字段包括作者粉丝数、作者地区、文章内容、点赞数、评论数和转发数等。

根据作者地区信息,可知事件关注公众的地区分布情况,具体分布如图4 所示。从图4 可以看出:华东、西北地区用户关注度较高,占比共约为40%;东北地区用户对该事件关注度较为薄弱;其他地区用户关注度较为均衡。

图4 事件推文数据集用户地区分布

本事件舆情实验测评数据采用 NLPCC2013 和2014 中文评论情感评测任务公共数据集。该实验数据集主要来自新浪微博,每个数据集按一定比例分为训练集和测试集。原数据集共分为 happiness,like,anger,sadness,fear,disgust,surprise,none 等 8 种情感标签。本研究将 happiness 和 like 作为正面情感,anger,sadness,fear,disgust 和 surprise,作为负面情感,具体数据集如表2 所示。

表2 事件舆情模型测评数据集

同时,实验采集嘉陵江铊污染事件有关新浪微博评论 1 218 条,今日头条、百度等新闻平台评论1 582 条,具体内容如表3 所示。将使用测评结果较好的模型进行事件舆情的情感分析。

表3 嘉陵江铊污染事件评论数据集

2.2 事件时空热度结果与分析

1)时间方面。依据事件热度模型以 d 为单位划分,累积 1 d 的推文热度总量,以此分析本次嘉陵江铊污染事件随时间发展的热度变化情况。根据2021 年 1 月 20—31 日嘉陵江铊污染事件统计的时间热度趋势如图5 所示。

图5 事件时间热度趋势

从图5 可以看出,微博用户关注响应事件的时间较晚,但热度上升速度快,且相较新闻方面,微博用户对该事件表现得更加活跃,说明:一方面微博短时间内信息传播的效率高、速率快,并且用户反应较为强烈;另一方面微博具有一定的滞后性,第一时间获取事件的手段受限。从新闻数据看出:新闻平台的时效性较强,用户能够更快得知新闻事件的信息;同时,新闻平台发布信息具有延续性、完整性,用户可以更长期地关注事件发展情况。但由于新闻平台播报也具有流动性、分散性,且不具备微博话题的聚集性特点,所以很难短时间内形成关注度峰值,需要更长时间的累积。

2)空间方面。以省份作为区分,将同一地区的推文热度累加求和,并选取事件发生初始期和活跃期进行空间热度分析。空间上的热度变化反映:包含甘肃、陕西两省的西北地区,包含四川等省份的西南地区用户关注量增长幅度较大,热度较高;华中地区热度增长幅度平稳,热度保持稳定;华北、华东、华南及东北地区用户随事件发展热度增长幅度较小,热度有降温的趋势。

2.3 NLPCC 数据集测试结果与分析

本实验使用 Python 语言作为实际编程语言。所有实验都在配备 2.4 GHz 6 核 Xeon CPU,60 GB RAM 和 Nvidia GeForce GTX 1080 Ti 的 Linux 服务器上进行。本实验设置词向量维度为 256 维,并调整优化模型各类参数,其中 SVM 与朴素贝叶斯的参数设置为默认,即惩罚项设置为 1.0,CNN(卷积神经网络)设置过滤器数量为 128 个,LSTM 与 Bi-LSTM 隐藏层为 128 个,本实验训练迭代次数 epoch设置为 200 次(各模型准确率在 100 次迭代后基本变化较小)。训练采用的优化函数为随机梯度下降方法。本实验学习率设置为 0.01,具体原因如图6 所示,图中各模型基本在 0.01 附近得到最好表现。

图6 学习率与准确率关系

NLPCC 数据集测试任务结果如表4 所示,从表中可以看出 Bi-LSTM 模型在准确率与召回率方面均表现优异,故在收集得到的嘉陵江舆论数据集上使用 Bi-LSTM 模型进行舆情分析。

表4 NLPCC 数据集测试任务结果 %

2.4 嘉陵江铊污染舆情结果与分析

经上述实验,选取训练完成的 Bi-LSTM 模型应用在本次嘉陵江铊污染事件的评论数据集上。利用算法,按照表5 所示的情感得分作为统计区间对全体用户的评论进行情感区分。

表5 情感得分统计区间

经过模型统计,微博、新闻 2 种评论综合情感得分分别为 1.495 和 1.660 分,具体各区间评论数分布情况如图7 所示。从图7 可以看出:新闻与微博评论都表现出,负面评论相对密集且集中,中性评论偏少,正面评论较为稀疏;微博评论较新闻平台呈现更加偏负面的情绪,含有较多极端负面观点。结果表明公众对于该事件负面情绪占据主导,缺乏理性客观的评论。

图7 情感得分数值分布

在此基础上,对得到的微博及新闻评论按时间顺序进行分割,1 月 20—31 日情感得分时间趋势如图8 所示。根据情感得分,分析群众情绪分布的时间变化趋势如下:群众负面情绪有所好转,但仍维持较高比例;中性情绪比例上升,主要由一些负面情绪的群众转变而来,群众开始关注政府应急措施、相关涉事企业的调查结果及后续影响等;正面的情绪比例有所波动,普遍处于较低水平。

图8 情感得分时间趋势

3 嘉陵江铊污染舆情的后续影响及其控制

本研究结合流域相关时间段气象水文情况,对涉事流域铊含量监测情况舆情的后续影响及其控制效果进行探究,并在疫情因素影响下,分析涉事行业整体态势与本次水污染的联系。

3.1 涉事流域气象水文分析

气候特征对水文和水资源产生直接影响,近年来,随着全球气候的逐渐变化,气候对水资源的影响越发显著。短时间的流域降水及蒸发量与河流的水位、流量有相应关联,据此,对陕西省汉中市和甘肃省陇南市两地 2021 年 1 月的降雨量和蒸发量进行探究,具体如图9 所示。

图9 2021 年 1 月汉中和陇南两地降雨量和蒸发量

2021 年 1 月流域铊含量监测情况如表6 所示,将铊含量监测情况与降雨和蒸发量相关联,可见汉中市和陇南市 1 月中上旬的降雨稀少,同期蒸发量普遍偏高,导致河水流量下降,使得水体溶解氧含量降低,有害物质含量增加,造成河水中的有毒物质浓度升高,水污染加剧。铊污染事件发生之前数天中,汉中市与陇南市都处在蒸发量较高时段,其中:陇南市日蒸发量均达到 40 mm;汉中市不仅出现该月最高蒸发量,而且基本处于月平均蒸发量以上。需要注意的是:陇南市、汉中市部分地区 1 月 24 日发生小规模降雨,造成有毒物质的二次冲刷,对应铊含量表中 26 日 2 段河水铊含量上升超标。

表6 流域铊含量监测情况

由于嘉陵江铊含量再次超标,对应时间段中负面舆情有相对上升的趋势,期间追责与溯源的舆情体现得更加明显。该时间段后,随着铊含量达标,负面舆情略显缓和,整体舆情得到控制,公众舆情趋于正面、理性。

3.2 相关行业宏观态势分析

略阳钢铁与成州锌冶炼厂作为地区主要金属加工、冶炼企业,其生产活动受到宏观因素的影响。

近年来,钢铁与锌行业景气度都有所回升,随着技术手段的提高与生产效率的提升,钢铁与锌冶炼企业的利润进一步增厚。

锌(SHFE 锌)与钢材(螺纹钢、热轧卷板)的价格在 2020 疫情期间呈现下降趋势,而在 2020 年下半年两者价格呈现大幅度上升态势,甚至达到近 5 a 的峰值。可见,在市场利润的驱动下,考虑发生疫情延误生产的情况,钢铁和锌行业并没有大规模减产,反而维持增加产量。这样很多工厂在有限时间内,提高产量的同时,可能会过度使用设备,造成相关设施检修不及时、工人过度劳累等情况,进而产生生产作业方面的负面影响。

由于疫情期间相关行业的波动,民众舆情反映出对于相关锌和钢材企业的复工复产、设备检修、环境污染等问题的担忧及疑虑。对比以往突发涉水事件,考虑铊污染产生的危害,2021 年嘉陵江铊污染突发事件发生后,舆情更加关注污染源头企业、地区及污染后续影响区域等,有关部门对相应舆情作出及时响应,有助于控制负面舆情的蔓延。

4 结语

本研究深入挖掘社交、新闻平台,以及各类搜索引擎的相关舆情评论数据,对 2021 年嘉陵江铊污染事件进行全面的分析与探讨。通过事件热度模型分析,关注本事件的用户主要来自甘肃、江苏、北京、广东、陕西等省市,其中污染源地甘肃、陕西两省的用户较为密集。舆情分析得出:微博方面,事件热度在 1 月 26 日达到峰值;新闻方面,事件热度在 1 月 28 日达到峰值。随着相关部门调查进展的及时播报及有关应急措施的实施,事件关注度呈现下降趋势。相较微博用户,新闻平台用户表现相对理性。事件处置方面,相关部门及时向公众公布涉事企业,并实施一系列举措保障居民生活用水安全,减轻水污染后续危害,有效舒缓安抚群众情绪,避免负面情绪蔓延。

后续分析来看,本研究联系流域气象水文信息对铊含量监测情况进行梳理,其次结合疫情情况针对两厂相关生产资料进行分析。钢铁与锌价格利润在疫情前期有逐步下行态势,疫情后期则出现大幅度回暖。在高利润驱动下,企业产量提升,设备使用率提高,用水量增加,水域水污染风险提升。突发涉水事件如进行系统性的预防,能够一定程度上缓冲污染带来的负面舆情及水安全危害。

猜你喜欢
嘉陵江舆情情感
港航工程/嘉陵江川境段航运配套工程
如何在情感中自我成长,保持独立
情感
嘉陵江东满福坝
诗歌与情感的断想
1940年4月郭沫若在重庆嘉陵江北岸发掘汉墓
如何在情感中自我成长,保持独立
数字舆情
数字舆情
消费舆情