张 扬 陈 轶
(南京工业大学建筑学院,南京 211816)
城市是人类经济活动的高度聚集体,洪涝灾害频发会造成重大人员伤亡和高昂经济损失,有效降低灾害损失至关重要。社交媒体数据作为一种时空大数据,具有实时性和位置服务的特点,近年来,在美国、德国、日本等国家的洪水风险管理中得到运用。例如,美国通过社交媒体数据中的降雨强度文本评估灾害全过程[1];德国使用社交媒体中带有地理定位的照片快速绘制洪水淹没地图[2];日本将社交媒体数据与灾害监测数据有效整合,为应急管理人员提供早期预警等[3]。
有别于传统遥感、气象观测数据在监测灾害进程、解析致灾程度、模拟结果准确度等方面的不足,社交媒体数据可通过实时地理时空分析和灾情信息传递实现快速救灾部署,但也存在不容忽视的问题,如地理定位准确性和信息可信度不足[4]。如何进一步优化社交媒体数据处理和分析的算法模型与技术,有效融合多源信息并运用于洪水风险管理全过程是目前研究的趋势。针对现有洪水监测技术的不足及社交媒体的优势,国内外学者积极探讨社交媒体数据在洪水风险管理中的应用技术方法。本文选取最新的基于社交媒体数据的洪涝灾害研究成果,归纳社交媒体洪水信息的提取与分析的技术手段,探讨社交媒体数据在洪水风险管理中的应用方向。
社交媒体数据具有巨大的信息量,但其中存在许多无用或虚假的信息。考虑到大多数推文可能包含与洪涝事件无关的信息,因此,精准提取与洪水风险相关的有效信息是首要工作。按照常见的数据类型和处理方式可将现有社交媒体数据分为“文本”“图像”“视频”。
1.1.1 文本提取
早期社交媒体数据处理一般选用文本形式,现阶段通常采用人工智能方法实现数据的分类和归纳,此外,基于深度学习的自然语言处理技术可以有效提升洪水信息的完整性和可靠性。如De Albuquerque 等[5]以2013 年德国洪水为例,通过将社交媒体与传统地理数据相结合,发现洪涝严重地区与推文数量成正比。Wang 等[6]通过文献回顾,探讨了从空间、时间、内容和网络4个方面挖掘的社交媒体数据在灾害管理方面的研究进展,提出社交媒体数据应与统计数据、调查数据等相结合。Liu 等[7]通过分析中国新闻机构在社交媒体平台推送的信息,进一步补充和校核中国自然灾害数据库。Mondal 等[8]通过构建检测谣言信息的概率模型,提高了社交媒体数据灾情分析的准确性。Gründer-Fahrer 等[9]以2013 年中欧洪水为例,使用主题模型(Topic Model Analysis)分析方法,通过分析社交媒体内容主题随时间的发展,识别灾害不同阶段的特征。Yang等[10]以飓风“哈维”为例,通过构建可信度框架进一步提升Twitter 数据分析结果在灾害管理的真实性和完整性。de Bruijn 等[11]通过构建全球历史洪涝推文数据库,实现全球范围实时的洪涝动态监测。Bai 等[12]运用机器学习模型对社交媒体数据的灾害信息进行高效分类,为救灾部署提供了及时的反馈信息。
1.1.2 图像提取
随着人工智能和机器学习技术的不断发展,图像的自动分类得以实现。支持向量机、决策树、贝叶斯方法等传统的分类计数方法已经广泛应用于图像分类领域,并取得了一定的成果。卷积神经网络是近年来计算机视觉领域的一个研究热点,其具有优秀的特征提取和分类能力,在海量的社交媒体图像信息的提取和解译方面取得了突出成果,已成为图像分类领域的主流方法之一。典型研究如:Chaudhary 等[13]基于计算机视觉系统,提取社交媒体洪涝图像水位数据,从而构建实时洪水地图。Feng 等[14]以飓风“哈维”为例,采用深度卷积神经网络技术,从社交媒体洪水图像中提取水位数据,绘制洪水淹没图。Lopez-Fuentes等[15]运用神经网络模型,通过分析社交媒体图像中受洪水影响地区的道路的可通行性,提高了救援效率。
近年来,计算机硬件的进步推动了深度学习的应用,提升了将文本和图像相结合的可能性,两者同时提取和分析可以实现相互校核并提升准确性。典型研究如:Huang等[16]运用深度学习方法,实现文本与图像相结合的灾害数据自动提取。Wang 等[17]综合运用基于深度学习的模型提取社交媒体数据中的图像和文本,进一步识别灾害不同阶段造成的社会影响和受灾位置信息。Fan 等[18]以飓风“哈维”为例,通过提取社交媒体数据中的文本和图像信息,分析洪涝事件中的基础设施中断情况。
1.1.3 视频提取
移动网络和智能手机的快速发展使得社交媒体用户可以实时、快速地分析视频数据。视频数据量大且具有动态特征,尽管已有研究表明从视频中提取洪水风险信息的可行性,但相关研究仍旧较少。典型研究如:Michelsen 等[19]从YouTube 视频中提取水位数据,弥补了缺乏监测地区的洪水信息获取的可能性。Jiang等[20]运用机器学习模型从视频图像中提取出城市内涝深度信息。Re等[21]将Twitter文本与YouTube视频结合,补充了城市洪涝模拟的数据。
社交媒体数据作为一种地理空间大数据,为致灾强度、灾害损失和求助信息评估提供了新的途径。但受制于个人隐私设置及受众群,只有小于1%的社交媒体数据带有准确的位置信息[22]。因此,社交媒体数据分析常与多源数据(如遥感数据、水文数据、其他媒体数据等)相结合,以补充和修正现有数据的不足。
1.2.1 单一社交媒体数据源
单一社交媒体数据源通常用于进行时间序列的灾情分析和地理时空分析,典型研究如:Arthur等[22]通过Twitter推文中涉及地名的信息进一步推断定位信息,并绘制高分辨率洪水风险地图。Kankanamge等[23]以昆士兰东南部洪水为例,通过提取社交媒体数据中的洪水信息识别严重受灾区。Sattaru 等[24]以2015 年印度洪水为例,通过提取和处理含洪水信息的社交媒体推文,快速识别洪涝高风险区域。
1.2.2 社交媒体数据与遥感数据结合
遥感影像是早期洪涝灾害研究中提取洪水范围的主要数据源。然而,受城市化影响,城市中的建筑物和植物阴影的遮挡可能导致洪水监测范围出现误差。此外,洪水监测采用的遥感影像会受到天气影响而导致延迟。因此,具有时效性的社交媒体数据可作为遥感数据源的有益补充,典型研究如:Fohringer 等[25]通过将社交媒体数据和遥感数据相结合,提取图像信息中有关洪水深度和范围的数据,实现洪水淹没范围和深度的实时监测。Jongman 等[26]以菲律宾和巴基斯坦洪水为例,通过整合卫星监测的实时洪水信息和Twitter 的分析数据可实现洪水的位置、时间、成因和影响的快速确定。Li 等[27]通过文献综述,探讨社交媒体与遥感数据整合的研究进展,表明社交媒体可以改进遥感数据在灾害应急响应方面的不足。Huang 等[28]将社交媒体数据与遥感影像结合,突破了传统洪水淹没概率计算方法的局限性。Wang 等[29]提出一种融合异构数据的算法框架,利用遥感和社交媒体数据生成有效的洪水地图,突破了单一数据的局限性。Xu等[30]将社交媒体数据和遥感图像相结合,通过计算洪水淹没概率生成更精确的洪水淹没范围图。Bruneau 等[31]以飓风“哈维”为例,将Twitter 和遥感数据相结合估算洪水淹没面积。Yang等[32]将社交媒体数据和遥感影像相结合评估长江三角洲地区洪涝灾情信息。
1.2.3 社交媒体数据与水文数据结合
社交媒体数据与水文数据相结合可以有效实现水力模型的模拟洪涝与现实洪涝的相互校核,提升洪涝模拟结果的准确度。典型研究如:Lee提出通过融合多源数据的概率性框架(probabilistic framework)评估洪涝发生概率,增加洪水风险预测的准确性[33]。Annis 等[34]通过整合社交媒体数据与水文数据改进水力模型,实现实时的洪水风险图。Scotti 等[35]以飓风“哈维”为例,将卫星图像、水力模型和社交媒体数据相结合,绘制出更精确的洪水风险地图。Giler-Ormaza 等[36]以厄瓜多尔洪灾为例,将YouTube 视频、二维水力模型和DEM 模型相结合,准确估测了洪灾后河流的流量峰值。
1.2.4 社交媒体数据与其他媒体数据结合
将多平台社交媒体数据融合与网络问卷、在线电子表格、报纸等其他媒体数据相结合,可作为单一社交媒体数据的补充,改进单一来源数据的质量,为洪水研究提供更全面的数据集合。典型研究如:Stephenson 等[37]搜集并对比Facebook 和Twitter 在洪水期间的社交媒体数据,发现不同的用户结构和活动偏好导致了数据内容的差异。Wang等[38]从Twitter 和MyCoast 收集并验证了洪水灾害数据,表明社交媒体数据可以监控大范围地区的洪涝事件,但存在较多噪音;众包数据更适合特定地点的洪水监控且数据更可靠,两者结合可以实现互补。Baranowski 等[39]利用Twitter数据和报纸提供的众包数据分析苏门答腊岛洪水的气象成因,提高了当地洪水风险的可预测性。
社交媒体数据与无人机摄像、遥感影像、水力数据等多源数据结合,可实现实时、动态的洪水监测,从而提升洪涝预警的准确性和及时性,典型研究如:Restrepo-Estrada等[40]将社交媒体数据与遥感影像、水文数据等相结合,提高了洪涝模拟的精度,表明社交媒体数据可以改进洪水预警系统。Chen 等[41]以台湾洪水为例,将从社交媒体文本中提取的灾害信息与应急管理信息云数据结合,建立了更精准的预警机制。Shoyama 等[3]以2019 年日本东部台风为例,对比分析洪涝相关推文数量与洪水监测数据的时间变化,得出推文数量的暴发与灾害事件的发生密切相关,并且根据推文与降雨量和水位数据的相关性特征,改进了洪涝灾害预警机制。
时间序列的灾情分析和地理时空分析是社交媒体数据应用于洪水风险管理的基本方法。早期,社交媒体数据的定位点直接表示在地图上,后期的研究通过空间算法将帖文中具有位置信息(如地名)转化为坐标。现阶段的研究进一步将时间和空间相结合,进行时间序列灾情变化的对比分析,典型研究如:Fang等[42]以2016年武汉暴雨为例,提取微博文本信息分析洪涝灾害灾前、灾中、灾后不同阶段的特征及影响,并绘制洪涝灾害热点地图。Zhao 等[43]通过提取微博文本中与台风路径相关的信息,绘制台风路径时空变化及受影响地区的灾情图。Arapostathis 等[44]通过计算机脚本自动处理社交媒体数据,生成洪涝时空演变图。
基于社交媒体文本数据的情绪和行为分析也是学界热点。早期的研究采用人工解译和判断的方法加上后期引入机器学习技术,通过训练情绪分析模型实现自动化文本处理。现阶段的研究将情绪和行为分析与时空数据相结合,分析灾害动态变化特征及其对人群和社会造成的影响。典型研究如:Tyshchuk 等[45]利用社交媒体数据分析用户对灾害警报的行为反应,为应急管理人员采取措施提供参考。Cheng等[46]以武汉为例,分析了微博用户在灾害期间使用微博的行为特征,结果表明中国社交媒体用户对灾害事件的参与度低于西方国家,缺少政府与公众的双向沟通,社交媒体尚未被有效用于灾害管理。Karmegam 等[47]以2015 年印度洪水为例,通过对灾害期间Twitter数据中的负面情绪进行时空分析,识别出受灾严重的地区和人群。Karami等[48]提出利用Twitter文本信息挖掘公众担忧情绪的分析框架,用以替代传统民意调查分析。Zhang 等[49]以飓风“哈维”为例,通过对社交媒体文本信息的主题和情感分析,得到洪涝事件中基础设施的中断情况及社会影响。Geng等[50]以山东寿光市洪水为例,探讨了微博用户灾害感知和响应行为的时空差异,表明社交媒体数据能够有效拓宽社会感知的研究领域。
由于洪水造成的损坏是快速的,通过对社交媒体文本、图像和视频的解译的可以提取灾害损失信息,帮助灾害管理者快速获取灾害损失状况并及时地做出灾害响应。同时,通过将社交媒体的灾损信息与现有调查数据相结合,可以实现更精准的灾损评估。典型研究如:Cervone等[51]以2013年科罗拉多洪水为例,通过提取社交媒体的位置信息与遥感影像相结合实现对交通基础设施的快速灾损评估。Hao 等[52]通过提取社交媒体有关灾害的文本和图像数据,补充了传统的灾损评估方法。Liu等[53]以2016年武汉洪水为例,整合社交媒体数据、POI数据等多源数据和洪水淹没地图,准确定位洪水淹没道路并快速估计受影响人口。Tan等[54]以重庆洪涝为例,将社交媒体数据中的灾损信息分为物理损失和情感损失两类,评估并分析了两个方面的损失程度和恢复状况。Eckhardt 等[55]综述了基于社交媒体数据的洪涝灾害损失经济评估方法,并以2019年里约洪涝灾害为案例证明了该方法的可行性。
根据社交媒体用户发布的灾害求助信息,灾害管理者通过提取相关推文识别不同群体的救灾需求,从而优化各项救灾部署措施,典型研究如:Schempp等[56]提出以多源数据整合的分析框架模拟洪涝灾害情境下的救灾需求,优化救援部署与物资分配。Lin 等[57]以武汉为例,通过从社交媒体、众包等大数据中提取人口动态时空分布信息,准确估算救灾物资的需求。Wu等[58]以2016年合肥暴雨为例,通过分析灾前、灾中、灾后微博话题的转变,提出相应的灾害应对策略。Belcastro 等[59]通过分析社交媒体推文预先发现洪涝次生灾害,为灾害管理者制定应对措施提供参考。
社交媒体数据可作为传统洪涝风险评估的补充数据源。相关的研究包括,Chong 等[60]以2015 年印度洪水为例,从Twitter 提取文本信息评估城市基础设施韧性。Barker等[61]以英国洪水为例,通过挖掘全国范围内的Twitter 灾害地理数据,分析洪涝对社区的潜在影响。Wu 等[62]以郑州为例,利用社交媒体数据建立洪涝脆弱性曲线模型,实现城市洪涝脆弱性的定量评估。Karimiziarani 等[63]以飓风“哈维”为例,基于社交媒体数据构建灾害风险意识指数,用于评估县级尺度居民的灾害风险意识。
(1)实时的洪水信息。传统的洪涝风险监测信息来自气象站、水文站、卫星遥感等,观测数据往往具有滞后性[35]。社交媒体数据可以更快提供最新的洪水风险信息,帮助应急管理部门快速掌握洪涝灾害的实时变化趋势,从而采取更精准的响应措施。社交媒体用户通过分享洪涝灾害相关的文本、图片和视频,有效传递雨情、水位、道路交通状况、积水点等洪涝灾情信息。
(2)多类型的洪水信息。社交媒体的洪水信息形式类型多样,包括文本、图片、视频等。文本包含求助信息、灾情、救灾进展、灾后恢复情况等,图片和视频涵盖洪涝灾害影响范围、积水点具体位置、洪涝严重程度等,带有地理定位的社交媒体数据为应急管理者提供了准确的需求信息。此外,社交媒体数据来源广泛,包括公众、新闻媒体、政府机构等多渠道[46],可以帮助管理者及时制定救灾策略和恢复计划。
(3)洪水信息可视化。将带有洪水信息的社交媒体数据以地图、图表等形式可视化呈现,可以直观地传达洪涝灾害的分布和变化趋势信息。数据的可视化可以帮助应急管理者更快速地了解洪涝灾情并制定相应的救灾策略。
(1)数据质量与精度不足。社交媒体数据量大但相关帖文数量少[64],且存在位置信息误差[65],致使其数据质量和精度不足。深度学习算法提高了从社交媒体数据提取信息的准确度,但依然难以控制原始数据质量[25]。例如由洪涝引发的通信设施中断会影响用户发送灾情相关微博,或者受灾者往往在撤离洪涝淹没区后发微博,造成数据时间和定位标签的偏差[29]。
(2)虚假信息大量存在。社交媒体平台发布的信息未经证实,存在大量的虚假信息。虚假信息往往会影响社交媒体数据分析结果,甚至造成灾害管理策略的错误部署。因此,识别和过滤虚假信息至关重要,针对谣言开发检测模型成了目前研究者的重要关注点[8]。此外,还需要在数据分析阶段对分析结果进行可信度评估,降低虚假信息的潜在影响[10]。
(3)用户群体受限。社交媒体活跃用户往往是年轻人,不能代表所有群体。城市往往比乡村拥有更多的社交媒体使用者,在收入较高的社区其社交媒体的信息更容易受到关注,而收入较低的社区其信息往往受到忽视。此外,年轻人是社交媒体的主要用户,而年长者较少使用社交媒体。为了更好地理解社交媒体在洪水风险管理中的作用和影响,需要考虑社交媒体的用户差异,并将其纳入决策过程中,以确保决策的公平性和全面性。
(4)文化差异影响。文化差异会影响社交媒体用户对灾害事件信息的描述,从而导致研究者对社交媒体文本解读的偏差。此外,文化差异可能导致中英文社交媒体的用户使用特点不同,需要采用不同的研究方法和策略。目前,社交媒体数据研究主要集中在以Twitter 为代表的英文平台,而对中文社交媒体的研究相对较少。然而,在中国的城市洪涝灾害事件中,社交媒体发挥了重要作用,尤其是在灾害响应阶段的信息共享和态势感知方面。尽管如此,仍然存在一些问题,包括中文社交媒体数据的未充分利用及社交媒体活动中民众和政府之间的双向沟通不足等[46]。因此,对中文社交媒体的洪水风险管理研究值得进一步深入。
社交媒体作为应急管理部门的新兴数据源,近年来受到越来越多的关注。由于观测数据和遥感数据存在一定的滞后性,具有较强实时性和公众参与性的社交媒体数据可以为应急管理部门提供更准确的洪涝灾害时空分布信息,从而进行高效的救灾部署。本文选取最新的研究成果,综述了社交媒体洪水信息提取和应用的研究进展。
社交媒体数据具有丰富的社会感知信息和传统调查数据无法比拟的大数据特征,一定程度上弥补了传统观测数据全面性、系统性的不足。研究方法上,从单一社交媒体的洪水信息的提取和分析,发展为多源数据与多学科的融合分析和应用,运用以机器学习为代表的算法模型优化是近期研究的热点。研究内容上,目前多采用带有定位信息的社交媒体数据,初步反映洪涝灾害的强度和空间分布,或用以辅助修正洪水风险分布图。
社交媒体数据的应用可以涵盖洪水风险管理的全过程,具体包括灾前的洪涝监测预警,灾中的灾情时空分析、受灾群众的情绪与行为分析,以及通过提取文本、图像和视频中的灾损信息,实现精准的灾后救灾部署和交通基础设施、住房、公共服务设施等多方面的灾害损失评估。通过社交媒体数据反映的实时灾情信息,可以提高灾情统计结果的准确度;社交媒体中反映的受灾群众情绪与舆情走向,可以用于提高应急管理部门的管理效率。
目前,由于多方面原因,我国应急管理部门较少采用社交媒体数据部署救灾工作,尽管社交媒体存在地理位置模糊、虚假信息等问题,但仍不可否认社交媒体数据能提供大量的社会感知信息,未来研究需要在社交媒体数据处理、多源数据融合及应急管理体系构建方面取得突破。