基于深度学习的地震舆情信息提取及时空可视化

2023-11-04 03:36王晨雨叶妍君邱英俏杜美庆
自然灾害学报 2023年5期
关键词:舆情救援文本

王晨雨,叶妍君,2,邱英俏,杜美庆

(1.河北工程大学 地球科学与工程学院,河北 邯郸 056038; 2. 中国科学院地理科学与资源研究所资源与、环境信息系统国家重点实验室,北京 100101; 3. 山东正元数字城市建设有限公司,山东 烟台 264670;4. 烟台市智慧城市及物联设施工程技术研究中心,山东 烟台 264670)

0 引言

地震是造成破坏最为严重的自然灾害之一,重大地震发生会对民众的生命和财产安全构成威胁,还会引发滑坡、泥石流等次生自然灾害[1-2],有效的灾害应急管理和防灾减灾策略迫在眉睫。传统的灾情信息获取方式具有时间周期长、工作量大、滞后于灾情等特点,不能满足政府开展实时性救援工作的需求。因此,震后黑箱期内及时获取灾情信息并采取有效应急策略是救援部署工作开展的关键[3-5]。据中国互联网络信息中心(China Internet Network Information Center, CNNIC)2021年9月15日发布的第48次《中国互联网网络发展状况报告》显示[6]:截止2021年6月,我国网民达10.11亿,互联网普及率达71.6%,统计结果表明,随着“互联网+”时代的到来,网络使我们获取信息的方式更便捷、更迅速,社交媒体平台受到网友广泛关注,人们可以通过互联网社交平台分享日常、发表观点、互动交流,社交媒体数据来源于公众,这些数据背后隐藏的舆情信息反映了人的态度、情感倾向、社会行为,在进行灾情研判和救援处置时更具针对性,CHENG等[7]基于2011年日本9.0级地震,将公众和媒体对灾害的看法进行研究,分析了地震对灾后感应和行为产生的不同影响。社交媒体平台—新浪微博以随时随地发布身边事的特点获得公众认可,2020年9月微博用户月活跃量达5.11亿,日活跃量达2.24亿,网友可以在微博发表文字、图片和视频等,这种方便快捷的表述更加符合现代人的生活方式,还可以随时随地进行留言、对来访者的评论进行回复,具有良好的互动性[8]。地震事件发生后,大量用户在微博平台发布言论,表达自己的情感、态度,海量数据汇集成为震后应急救援开展的一手资料。

目前已有国内外学者利用新浪微博数据研究地震事件,其成果主要包括实时地震系统构建、灾情影响范围、灾情时空分析等,郑嵘等[9]基于微博数据构建了灾害实时处理系统,并在实际地震中验证了系统可行性;曹彦波等[10]基于微博数据挖掘四川九寨沟地震灾情信息并与实际灾评结果进行空间对比,对救灾决策部署提供一定参考;徐敬海等[11]利用位置微博提取地震灾情的方法,实现了点集微博灾情向面状灾情的转化;SAKAKI等[12]使用支持向量机算法分析了日本地震相关推文。微博平台是获取灾害事件中公众情绪的有效跟踪工具,重大灾害的发生会使公众产生恐惧、怀疑和悲伤等情绪,这种状态不及时调节会给灾区民众带来不同程度的精神和心理问题,可见灾后针对公众情感情绪研究的重要性。杨腾飞等[13]基于深度学习算法抽取的情感信息结合时空信息为应急救灾提供了一定参考;曹彦波[14]基于微博数据采用情感词典与规则相结合的方法,分析了灾区民众情感极性特征和情绪反映时空变化;万岩等[15]基于微博数据建立了一个新的情感分析模型,提高了细粒度情感分类的准确率;林筱妍等[16]、张岩等[17]基于微博文本特征分析了台风事件公众情感倾向,有助于政府掌握和引导灾害舆情;ALFARRARJEH等[18]、NEPPALLI等[19]利用多源社交媒体数据对桑迪飓风等灾害进行情感分析并可视化。

重大地震发生会给人们带来极大精神压力和心理伤害,产生不同程度的心理应激反应,赵高锋等[20]、罗兴伟等[21]、范方等[22]和耿富雷等[23]通过大量调查研究发现,震后民众会出现心理失衡状况,尤其会对地震亲临者的心理应激情绪带来重大影响,严重影响他们未来的生活,还可能产生负面社会心理效应,对社会稳定构成威胁[24-26]。一般情况下,地震对于我们来说是短暂的、瞬时的,然而,这种灾害对于地震亲临者的伤害却是持续的、长期的,震后72 h生命黄金救援期也是心理救援的关键期。“5·12”汶川地震的救援工作,使人们深刻体会到灾后应急管理和社会救援工作中心理干预的重要性,虽然此次地震的心理危机干预工作得到高度重视,但由于响应机制缺失、缺乏专业队伍,依然存在较多问题[27],因此,针对震区心理危机干预方法的研究尤为重要,青少年作为震后灾区重点心理干预对象,灾后教育重建中应加以重视[28],谭友果等[29]、胡丽等[30]和张晓林等[31]利用班级团体结合个别辅导、体育锻炼等方式对震区学生进行干预,同时,一些针对地震灾区现场实施的心理干预方式也取得良好效果[32-37],杨一等[38]提出心理干预是一项长期系统工作,应构建“医院-学校-行业”等多元主体协同的专业化研究团队;与此同时,政府在心理危机干预中发挥了不可忽视的作用,政府的正确引导保障了社会救援的通畅,何江新等[39]、曹蓉等[40]和宋晓明等[41]学者已从事件预防、响应、恢复等多方面为政府提出可行性建议。

为了应对心理危机干预、了解公众关注热点、掌握并正确引导网络舆论,如何从海量、非结构化的微博文本信息中快速挖掘舆情信息,国内外学者已从多方向进行研究:LI等[42]基于微博数据利用卷积神经网络进行文本信息提取,并应用于武汉和深圳暴雨事件的监测上;杨辰等[43]基于自然语言处理算法提取分析报警灾情描述信息,进一步分析了气象灾害的时空特征及致灾条件;WANG等[44]结合LDA模型和SVM算法对暴雨主题文本流进行了分类;陈瑷瑷等[45]对社交媒体文本中的位置浅语义特征进行提取,并与地理空间结合,对于场所感知和城市规划有积极意义;谭永滨等[46]提出的微博文本位置信息识别与提取模型可进行文本位置挖掘分析;王艳东等[47]提出的基于共词网络社区演化进行灾情态势感知方法可辅助了解灾情发展过程;马莹雪等[48]和苏晓慧等[49]采用机器学习算法提取灾害热点话题,为灾害应急管理提供帮助,目前学者已从文本分类、信息抽取等方面进行舆情分析,但对社交媒体数据中蕴含的更细粒度地震主题信息提取并分类的研究存在不足。

本文以2021年5月21日“大理漾濞6.4级地震”事件为例,基于新浪微博数据,研究了一种利用卷积神经网络(convolution neural network, CNN)提取地震主题信息并分类的方法,并将结果以地震主题时空演变特征可视化,为震后灾情研判、救援部署工作提供重要参考。

1 研究区域与数据

1.1 研究区域

2021年5月21日云南漾濞发生6.4级地震,截至2021年5月22日15时,此次地震共造成15.9万人受灾,3人死亡、32人受伤,多处房屋开裂甚至倒塌,地震造成的坍塌和滑坡导致道路受损、交通中断。因此,本文以漾濞彝族自治县6.4级地震为研究对象,以大理白族自治州为研究区域,地震震中位于25.67°N,99.87°E,如图1所示。

图1 研究区域

1.2 数据获取与处理

漾濞6.4级地震在震后一段时间内一直是新浪微博的热点话题,并登上微博热搜榜第一,震后人们反响强烈,纷纷在微博表达自己的态度、情感,期间网友发布的微博包含了大量与此次地震相关的舆情信息,如:救援信息、伤亡情况等。本文以新浪微博平台为数据源,使用Python软件爬取微博热搜话题数据,数据获取形式为发布时间、用户名、性别、位置、点赞数、博文内容等,如表1所示,采集时间为震后48 h(2021年5月21日21时48分—23日21时48分),为解决爬取的数据重复率高、无关内容多等问题,使用Excel等统计软件和人工判读对数据进行筛选、分类和统计,最终获取#大理漾濞6.4级地震#数据7972条。

表1 微博数据获取格式

其中,地理定位为用户发布微博时所处位置,以文本描述的形式存在,如:“大理·大理大学(古城校区)”、“大理·大理古镇”等,为了便于分析,需要将这些文本数据转换为坐标数据。通过Python语言编程,使用https://mapjiqrxxcom/jingweidu/网站中的位置转坐标功能,将地理位置转换为地理坐标,如表2所示。研究区域为大理白族自治州,故表中展示了大理市部分地点坐标。

表2 地理定位转换结果示例

通过对微博文本进行阅读,并参照微博灾情信息分类指标[50]、地震现场灾情信息分类代码表[51]和位置微博地震灾情分类映射表[9],结合漾濞地震后灾区实际情况将地震文本分为正能量祈祷、动作状态、场景描述、预警信息、救援处置、震情信息和伤亡受灾七类主题,如表3所示。为满足CNN模型训练的需要,每条微博文本通过人工标注方式得到一个主题,即每条训练文本对应一个地震主题。

表3 微博主题分类表

2 研究方法

基于新浪微博数据,利用构建的卷积神经网络模型可从大量文本中识别出救援、伤亡和震情等与此次地震事件相关的信息;对地震数据集做分词和去停用词处理,构建文本向量矩阵作为卷积神经网络的输入层;通过不断测试和优化得到地震舆情信息提取结果,最后将训练完成后的模型应用于新的地震数据集分类中。

2.1 基于CNN的地震舆情信息提取

随着深度学习技术的发展,其已应用于不同研究领域,如灾害信息自动提取与分类[52]、空间情绪感知评价[53]等。常用的深度学习算法包括卷积神经网络(CNN)和循环神经网络(recurrent neural networks, RNN),RNN对信息分类是依据整个文本或文本间存在较长的语义关系的词语加权和,而CNN是将文本中具有明显特征的关键词或短语作为分类依据[54]。微博数据以短文本为主,具有口语化、碎片化等特点,由于微博文本中包含了大量与地震舆情有关的特征词,基于卷积神经网络构建的多分类模型有较好的特征词识别能力,且据研究CNN在文本分类中具有明显优势,且比较稳定[55],因此,本文使用CNN提取地震舆情信息,图2为主题信息提取流程。

图2 地震主题信息抽取流程

2.1.1 微博文本特征信息获取

文本向量矩阵是文本特征信息获取的重要部分,主要思路为:

1)读取地震主题相关语料库,使用结巴分词工具对获取的微博文本进行分词、去停用词操作;停用词是与本次研究无关、无实际意义的词,比如“呀”、“啊”等语气词,“这些”、“那么”等没有反映灾情的词。

2)利用Python软件Gensim包的word2vec模块构建Skip-gram模型生成词向量空间。word2vec主要有Skip-gram和CBOW这2种模型,基于微博数据的特点Skip-gram模型适用于小语料库,在处理效果上更具优势,该模型通过对大量文本进行训练,可依据当前词计算出上下文的语义关系,并以向量的形式表示[56]。Word2vec依据语料库使用Skip-gram模型进行训练,得到词向量空间。

3)将每条微博文本单独分词,这些词对应词向量构成了词向量列表,根据列表转换为文本矩阵。由于微博文本不超过140个字符,所以设置词向量维度为140,文本中的词汇从上向下排列,长度不足的微博文本用“0”补齐,此方式解决窗口滑动时会遇到文本长短不一的问题。文本向量矩阵如图3所示。

图3 微博文本向量矩阵结构

2.1.2 卷积神经网络模型构建与训练

本文构建的卷积神经网络模型使用了基于Tensorflow的keras深度学习框架,卷积层和池化层没有重复叠加,结果表明简单的模型可防止过拟合,达到最优效果,如图4所示。

图4 用于文本分类的CNN结构

1)输入层:将每条地震灾害相关微博文本分词嵌入词向量中,变量x和y分别为地震灾害微博文本和地震主题类别,将训练文本对应矩阵输入到卷积层中。

2)卷积层:利用固定窗口的过滤器对嵌入的词向量进行卷积,过滤器的宽应与词向量维度一致,设置窗口大小,每次窗口覆盖连续的几个词。卷积可提取相邻的离散文本特征,如单一词语“交通”、“中断”,结合后的词“交通中断”作为新的特征词出现,突出了文本中的震情信息,这样的词还有很多,如“震感”和“明显”等。

3)池化层:池化是对卷积操作后的结果进一步筛选,常用的池化方法有最大池化和平均池化,研究表明,最大池化的效果比平均池化好[55]。本文使用最大池化使卷积后的输出值作为池化层的输入值,输出矩阵中最大的元素,为卷积之后具有最明显的特征。

4)全连接层和分类层:把池化层的结果做一个拼接,加一个reluctant非线性映射,对标准主题分类与拼接结果求一个交叉熵损失,损失值越小效果越好;使用Softmax函数计算输入文本的主题类别,输出每个主题可能的概率值,最终确定的地震主题为概率值最大的一类。

2.2 辅助舆情分析方法

基于提取的地震主题类别,结合辅助舆情分析方法:热度分析、关键词挖掘和核密度估计等方法将震情可视化。

2.2.1 地震热度分析方法

对地震舆情热度进行量化分析,统计每20 min内有关地震事件的讨论次数,并结合不同时段的关键词进行分析,其中,微博话题热度=微博点赞数+评论数+转发数,将每次微博用户行为都视为一次热度。

微博文本特征提取的方法有词频—逆文档(TF-IDF)和信息熵等,本文使用Jieba分词的TF-IDF算法进行关键词挖掘,计算公式为:

TF-IDF=TF×IDF=tfi,j×idfi

(1)

(2)

(3)

式中:tfi,j为频率;ni,j为某个词i在文本j中出现的次数; ∑knk,j为数据集k中文本j包含特征词i的总数,tfi,j值越大表明该特征词对文本的贡献越大;idfi为逆文档频率,表示一个特征词i在数据集k中出现的概率,主要用于降低一些常见却对文档影响不大的词;N为数据集中文本总数;Ni为数据集中包含特征词i的文本总数。

2.2.2 情感分析方法

将大连理工大学信息检索研究室研发的中文情感词汇本体库作为基础词典,综合考虑句法对语义表达的影响,结合知网HowNet否定词和程度副词词典,构成一个新的地震舆情情感词典。每个词在每个情感下对应一个极性,情感词的情感极性有“正面、负面、中性”三类,情感极性大于0的赋值为1,代表正面情绪;情感极性等于0的直接作为中性情绪;情感极性小于0的赋值为-1,代表负面情绪,词汇的情感值如式(4):

Sw=VwPw

(4)

式中:Sw为词汇情感值;Vw为词汇情感强度;Pw为词汇情感极性。

(5)

Sk=∑Sentik

(6)

式中:k∈{1,2,3,4,5,6,7}分别为好、乐、哀、怒、惧、恶、惊7种情感;αki、βki分别为k类情感词的强度和修饰该情感词的程度副词强度;n为否定词个数;N为情感词个数。

2.2.3 核密度估计法

核密度估计(kernel density estimation, KDE)是一种基于非参数密度估计的对点要素进行地理空间分析的方法[58],其几何意义是以样本点xi为中心,计算每个样本点在指定半径范围内的密度值,越靠近中心点处的密度越高。在地震主题研究中,核密度估计值越大地震主题在空间上的分布就越聚集,计算公式如式(7)[58]:

(7)

3 地震主题信息精度评估

基于1.2节七类地震主题信息,人工阅读并标记了2100条带有地理定位的数据做为训练样本,每个主题对应300条数据,由于“伤亡受灾”类主题的微博数量不足300条,故从新浪微博爬取#青海发生7.4级地震#热搜话题数据作为补充数据集,数据采集时间范围为2021年5月22日2时4分—23日2时4分。将标记的主题数据按5∶1划分为卷积神经网络模型的训练集和测试集,训练样本划分为训练集和测试集以便构建误差最小的模型,保证每个地震主题的完整性。本次研究主题信息分类通过召回率(Recall)、准确度(Precision)和综合评价指标(F1-score)值3个指标进行衡量,各项指标计算公式如式(8)~式(10):

(8)

(9)

(10)

模型优化是神经网络训练的重要步骤,通过多次迭代寻求最合适的参数,其中,词向量维度设为140,滑窗大小设置为3,丢弃正则化参数设为0.3,padding设为same,地震主题分类精度评估结果如表4所示,F1值处于精确度和召回率之间,数值达到85.4%,整体精确度达到89.7%,说明模型在地震主题提取中有一定效果。

表4 文本主题分类精度评估

针对每个主题分别计算其精度评估结果,据漾濞地震评估结果:精确度、召回率和F1值都在80%以上,说明大部分文本内容可以被准确识别。为了对模型进行验证,从青海玛多地震数据集中抽取800条人工标记的微博数据作为验证集,对数据进行分词、去停用词以及文本向量矩阵转化等处理,将800条文本输入主题分类模型中进行分类,结果如表5所示,整体精度高于80%,主题“正能量祈祷”、“场景描述”、“震情信息”的精度达到90%,CNN模型在新的地震数据集上也有较好表现,说明分类器有自动提取文本特征的能力,在灾害信息提取方面具有可行性。

表5 漾濞地震和青海地震主题信息精度评估结果

4 舆情分析及可视化

4.1 数据描述

调用Python中的结巴分词库、词频统计库等库对获取的地震数据进行中文分词和词频统计,结合地震主题类别进行分析,如图5所示。主题“正能量祈祷”的微博数量最多,比例达38%;震后高频形容词“平安”出现3189次,位居第一,“希望”一词出现1507次,与地震主题信息提取结果相符。

图5 漾濞6.4级地震主题对应微博数量及所占比例

如表6所示,主题“动作状态”占比25%,震后“下楼避险”、“在篮球场中央瑟瑟发抖”、“手抖脚软”等一系列动作状态表明当时公众害怕、惶恐不安。主题“场景描述”和“震情信息”分别占比15%和11%,结合震后高频名词和动词统计结果:“救援”一词出现1693次、“应急”一词出现652次、“警报”一词出现333次、“震感”一词出现327次、“自救”一词出现265次,表明无论何时我们都应该提高警惕,面对突如其来的灾害不要慌张,公众自身平时要多加防范;此次地震出现人员伤亡情况,政府及相关部门应提高重视,宣传防震避震知识,并做好应急措施以及预警预报。

表6 漾濞地震高频特征词统计(排名前15)

4.2 时序变化

震后48 h地震微博热度达到401360,以20 min为单位分析地震讨论热度(从地震发生后登上微博热搜开始计算,20 min为划分单元,以此类推),对图中局部热度峰值进行关键词分析,该峰值20 min内对应的微博博文作为分析对象,TF-IDF所得结果进行标注,如图6所示。从图中可看出,以20 min为划分单元的舆情热度时序讨论与实际地震舆情时序变化相符,震后0~24 h一直保持较高的讨论热度,震后3 h是话题讨论高峰期,热度值最高的为中国地震台网发布的官方震情、祈祷祝福、对震后救援的肯定、赞美;随着地震事件在微博热度减小,24~48 h 2次地震话题讨论度明显减少,余震发生时会出现小的起伏。以一天24 h为区间来看,热度变化随公众日常作息呈现出规律性变化,凌晨0—6时,舆情热度逐渐迅速下降,凌晨6时之后,舆情热度出现上升趋势;一天内讨论热度最高时期为早晨7时前后和中午12时前后,晚上18时前后也会出现话题讨论小高峰。

图6 2021年5月21日21时48分—23日21时48分地震讨论热度

为了进一步验证各类地震主题在实际减灾中的作用,通过统计每个地震主题的数量变化,得到各时段公众对地震的响应情况,有助于了解地震舆情发展规律。

本文对5月21日21∶48—5月23日21∶48时间段之间的数据进行时序分析,震后每个主题随时间变化的趋势,如图7所示,直观反映了地震舆情基本情况和发展规律。从图中可知,大部分微博主题数量随地震事件发生经历了较大起伏,震后数小时微博数量居高不下,余震发生后微博数量也会出现小高峰,说明基于微博数据抽取地震主题与实际地震发生阶段相符。总体来看,白天时段微博发布量略高于在晚上时段,呈现出“昼多夜少”的特征,地震发生后的6 h和次日上午微博数量最多,夜间和下午微博发布量相对较少;随着时间推移热度降低,5月23日微博发布数量明显减少,之后一段时间基本没有发布量。“正能量祈祷”和“动作状态”2个主题的微博数量最多,震后地震亲临者和网友纷纷在微博传播正能量信息,相互鼓励,提醒大家注意安全并宣传转发防震自救等相关微博; 发布 “场景描述”和“震情信息”的微博发布量也较多, “震情信息”类微博在余震发生后会有所上升。22∶49∶00用户名为“婷婷婷婷婷在这呢”发布微博:“一晚上震十几次 我真的太慌了 救命SOS 看见整栋楼都在摇 我真的怕了!”此条微博包含了场景描述信息“整栋楼都在晃”和震情信息“一晚上震好几次”以及地震亲临者的感受“慌”和“怕”。“救援处置”类微博数量增多趋势晚于“伤亡受灾”类微博主题,随着救援工作持续进行,救援和伤亡信息逐渐减少,民众情绪得到平复。此次大理漾濞地震震级较大,影响范围广,存在人员伤亡,通过不同的地震主题变化趋势,有助于从多角度分析震后舆情演变。

图7 2021年5月21日21时48分—23日21时48分地震主题时序变化

4.3 空间分布特征

为了直观地震后公众舆情态势,运用地理统计分析方法,筛选出大理白族自治州范围内带有地理定位的微博数据,对网友发布的微博进行解析发现,微博数量空间分布总体呈现出不均衡的特征,大理白族自治州微博数量最高的地区为大理市,其次为发震地点漾濞彝族自治县,距离震中较远的鹤庆县、南涧彝族自治县微博数量最少。主要原因是大理市经济发达,信息传播快,有大理古城、苍山洱海等著名景区,当地民众和外来旅客聚集,公众对热点事件关注度高,震后通讯设施未受到重大破坏,微博数量较多;漾濞彝族自治县附近地区由于无线电通讯设备受损,信号中断,影响震区民众与外界联系,加之人口密度低,微博发布量较少。

由图8微博核密度空间分布可知,漾濞地震舆情高值区为大理市,距离震中较近的漾濞彝族自治县城区、区域a、区域b的核密度值也较高;区域c、区域d、区域e、区域f虽远离震中,但也表现出较周围区域更高的密度分布,震后灾区开展应急管理时,地震舆情高值区可为政府把握舆情信息、合理分配救灾物资提供重要参考,加强对该区域的地震监测和震情管理可在震后黑箱期内预防意外发生。

图8 2021年5月21日21时48分—23日21时48分地震舆情空间分布

带有定位的微博数据包含了地理位置,一条微博文本对应一个地震主题类别,故每条微博可被认为是带有一个主题的实体点。4.2节微博主题时序变化,抽取微博数量最高的3个时段:21日21时—22日3时、22日6时—22日12时、22日17时—22日23时作为研究对象,结合3个时段对应情感类别分析地震舆情。

如图9(a)所示震后第一个时段,该时段微博主题数量多且分布范围广,具有分散性,整个大理白族自治州除云龙县和鹤庆县都有分布,主要集中在大理市和震中附近,地震主题以“正能量祈祷”和“动作状态”为主;永平县和宾川县出现主题“救援处置”,抽取这一时间段微博主要关键词:“云南”、“震中”、“大家”、“余震”等,表明此次地震对公众的影响较大,漾濞6.4级地震前后,又发生数次余震,此时网友的情绪主要表现为恐惧、愤怒,分别占比17%、14%,怀疑情绪占比达10%,如图10所示,人们比较担心是否还会有重大地震和余震发生,震后部分网友通过关注中国地震台网、云南省地震局等官方微博了解最新震情。如图9(b)所示震后第二个时段,地震主题主要集中在大理市,“震情信息”、“动作状态”和“场景描述”等主题明显减少,云龙县、弥渡县、剑川县出现“正能量祈祷”主题,结合关键词“抗震”、“避震”、“救援”、“安好”等可知,震后公众情绪逐渐恢复,祝愿和安心情感占比增加,怀疑和恐惧情感占比明显减少;震中附近区域和大理市还存在主题“救援处置”,结合关键词“抢险”、“救援”、“帐篷”等表明震区还需要一些应急物资,这是震后对个人需求的满足,是对震后精准救援的直接反馈。震后第三个时段见图9(c),各类主题信息明显减少并聚集在大理市,公众发布正能量祈祷信息居多,结合关键词“平安”、“安好”、“希望”等可知,震后人们“祝平安”“报平安”为灾区祈祷,互相鼓励、安慰;如图10所示,从情感占比角度看,祝愿和安心情感达59%,从侧面说明了公众对震后救援取得成效的肯定;值得注意的是,该时段悲伤情感占比21%,虽然震后救援保障了灾区民众生命安全,但地震造成的持续性心理伤害却没有减退,因此,将地震主题信息与公众情感相结合有助于政府关注震区情况及公众的心理变化,为震后灾区应急管理提供一定参考。

图9 不同时段地震主题的空间分布

图10 不同时段各情感类型占比

2021年5月24日,云南省地震局发布了云南漾濞6.4级地震烈度图,此次地震的最大烈度为VIII度(8度),对大理白族自治州6个县市造成严重影响。将主题信息与地震影响场、交通路网等数据结合(所涉及的交通路网数据根据高德地图的路网栅格底图矢量化得到),分析不同类别地震主题在应急管理中的作用。如图11所示,地震主题主要集中在震中所在的漾濞彝族自治县、大理市、祥云县、宾川县等县城、乡镇及道路沿线区域,呈条带状和团块状分布:条带状即主要沿交通路网分布,通过大理市的214国道、连接大理市和漾濞彝族自治县的215国道,保证了震后救援的通达性;大理市、永平县和宾川县等地区的微博呈团块状分布在城区附近。通过地震烈度区可以确定地震影响范围,在烈度VIII度区内,漾濞县城受此次地震影响最大,出现最多的主题为“正能量祈祷”和“救援处置”,由于距离震中近,震感强烈,地震造成的破坏较严重,应划为震后救援重灾区,秀岭村及西北部发布的“救援处置”信息最多,震中多山环绕的复杂地形可能会加剧二次灾害发生,也加大了救援工作难度,因此,震后应根据主题“救援处置”的位置做出应急响应,以减少人员伤亡。在烈度VII度区内,太平乡以及平坡镇附近村庄发布的主题多为“正能量祈祷”、“动作状态”。在烈度VI度区内,大理市的主题信息分布最为密集,大理古城、大理苍山世界地质公园、太邑彝族乡、村落瓦世恒等附近均出现主题“正能量祈祷”和“动作状态”,震后公众“抱头”、“下楼避险”、“打开手机”等一系列动作反应表明震后公众自救意识强,这与政府日常宣传防震抗震自救等知识密切相关。花椒箐隧道和双廊镇附近出现主题“场景描述”,结合微博内容多为游客发布的舆情信息,5月21日23时49分,微博用户名为“有妖眸的巫婆”发文称“双廊古镇感受强烈,震了好几次,最明显的那次整个地都在晃”,可见当时双廊镇震感明显,器物、建筑物出现明显晃动。在烈度VI度区外,村落白马庙和庙前村出现主题“救援处置”,东山国家森林公园均出现主题“动作状态”,大甘庄出现主题“伤亡受灾”,救援医疗队应在震后第一时间赶往该区域,进行伤亡救援。利用同样的方法可为其他灾区灾情监测、应急处置提供决策依据。

图11 地震影响场主题信息空间分布

5 结论与展望

本文基于微博平台爬取包含文本、时间、位置的数据,通过人工判读和数据处理软件对数据进行结构化整理,便于后期分析研究。结合灾情信息分类知识阅读微博文本,判别不同类型的地震主题信息,对带有地理定位的数据集进行标记。以2021年5月21日“大理漾濞6.4级地震”事件为例,构建了一个基于CNN模型的主题信息提取流程框架,通过设置不同参数对模型进行优化训练,整体精度达到80%以上,各个主题精度也达到预期效果。将新获取的青海地震数据集输入模型进行验证,2次地震验证结果说明,该模型在灾害主题信息提取中具有可行性,最后将地震舆情可视化,得出以下结论:

1)时序变化:地震主题时序变化反映了震后各阶段舆情关注点的变化,大部分地震主题随地震事件的发生产生较大起伏,主题“正能量祈祷”数量最多,比例达38%,余震发生后微博数量会出现小高峰,总体呈现出“昼多夜少”的特征,与实际地震发生阶段相符。

2)空间特征:地震主题信息分布范围广,具有分散性;随着时间推移,地震事件在微博的热度逐渐消退,更多主题信息集中在大理市。不同市(县)区域对地震主题的关注度不同,越靠近震中公众对地震事件的响应程度越高。微博数量除与地震事件影响范围外,还与经济水平、交通便捷程度、人口密度有密切关系。

本文提出的利用卷积神经网络提取地震主题信息并分类的方法,对地震主题进行了更细粒度划分,这些地震主题信息是人本身对灾后舆情的直接反馈,深入挖掘主题信息有助于把握公众舆情倾向,弥补震后心理危机干预快速增长的需求,更有针对性的安抚受灾民众,疏解重大灾害带来的心理恐慌,提高公众心理应急能力,提升社会救援效率,为震后灾情研判、救援部署提供重要参考,同时,也为其他地区灾害事件监测和应急管理提供新思路。结合各时段文本关键词、公众情感情绪有助于政府关注震区情况及公众的心理变化,为震区应急管理提供参考。

尽管此研究方法在救援减灾中具有很好的效果,但还存在一些不足:仅仅依靠微博数据分析地震舆情具有单一性,后期可将手机信令、抖音等多源数据综合考虑进行分析;震后并非每位网友发布微博时都会开启定位,导致用于空间分析的地理位置数据不全面,后期考虑智能化算法提取文本中可能包含的位置信息。

猜你喜欢
舆情救援文本
紧急救援
3D打印大救援
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
舆情
舆情
舆情
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
救援行动
如何快速走进文本