摘要:社会感知技术是研究重特大地震事件中灾区民众行为反应时空特征的一种有效手段。采用情感词典和规则相结合的方法,以2013年四川芦山7.0级和2017年九寨沟7.0级地震为例,用震后24 h微博数据分析了地震灾区民众微博数量特征、情感极性特征、情绪时间序列特征、情绪反应空间分布特征。研究结果表明:芦山地震灾区民众负面情绪大于正面情绪,而九寨沟地震后民众正面情绪大于负面情绪,微博活跃数量程度与人口密度、生命线破坏程度、震中距离和烈度密切相关,微博活跃数量呈现空间分布不均衡特征。分析认为,2次地震后,灾区民众情感行为反应差异主要与灾区人口密度、房屋抗震性能、当地民众防震减灾意识、地震知识了解程度等密切相关。
关键词:社交媒体;芦山地震;九寨沟地震;情绪分析
中图分类号:P315.941 文献标识码:A 文章编号:1000-0666(2019)02-0245-11
0 引言
21世纪初以来,我国西南地区相继发生了四川汶川8.0级、四川芦山7.0级、云南鲁甸6.5级、四川九寨沟7.0级等多次重特大地震灾害事件,大地震发生后,政府部门迫切需要了解地震破坏、人员伤亡等情况。通过对带有地理位置标记的社交媒体大数据进行充分挖掘和分析,可以快速获取整个地震灾害事件及灾害链中民众的情绪反应,帮助政府部门有效开展舆情疏导、科学施救和民众情绪的安抚工作,提高救灾效率。
在地震灾区民众行为认知社会调查研究方面,传统的调查方式主要是在震后通过访谈或问卷调查来分析人对灾害事件的反应和行为,获取的数据往往是总体样本的一个子集,存在着样本代表性、典型性、时效性和空间范围等方面问题(吴志峰等,2015)。随着互联网、物联网技术的快速发展,特别是带有定位功能的移动设备、智能手机等的广泛使用,由社交媒体签到数据、带位置的照片、微视频、移动轨迹数据等构成的位置大数据已经成为当前用来感知人类社群活动规律最有效的手段之一(刘经南等,2014;李德仁,2016)。社会感知可以提取人的时空行为特征,还可以从带有时空标记的社交媒体数据获取个体认知的情绪反应(Liu et al,2015;刘瑜,2016)。特别是在重大地震事件发生后,灾区大量民众在微博、微信、QQ空间等社交媒体平台上发布对本次地震的情感、心情、观点、评论等,这些数据成为反映社会行为活动和灾害特征的一种重要的数据源(王艳东等,2016)。因此,对这些带有地理位置标记的社交媒体大数据进行充分挖掘和分析,能够在一定程度上克服传统社会调查数据获取不足的问题。尤其是在大地震发生后,灾情的时空变化是“黑箱-灰箱-白箱”的一个演变过程,通过社会感知方式获取灾情,对于政府震后初期进行舆情引导、灾民救助等有重要的意义。
近年来,在全球范围内重大地震事件发生后,国内外学者纷纷利用灾害前后发布的社交媒体数据,围绕地震舆情信息分析监控(赵金楼,成俊会,2015;曹彦波,2018;Li et al,2018),地震灾害监测预警(Sakaki et al,2013;Crooks et al,2013;苏晓慧等,2013),地震灾情挖掘分析(徐敬海等,2015;褚俊秀,徐敬海,2016;Comunello et al,2016;Thapa,2016;曹彦波等,2017a,b)等方面做了大量的研究工作。在地震舆情信息分析方面,不同学者利用社交媒体数据分析地震公众行为模式、通行行为、情感反应等,如Onook等(2010)利用twitter数据分析了在海地地震后谣言对人们情绪的影响,焦虑的人对负面消息更敏感,很容易受到谣言影响;Qu等(2011)利用新浪微博分析了2011年玉树7.1级地震后,人们利用社会平台传播震情灾情、救灾物资需求、救援处置等信息,以及公众对地震事件的抑郁、愤怒、悲伤等情绪表达;Bengtsson等(2011)使用海地最大手机公司的用户身份模块 (SIM) 卡的位置数据估计2010年1月12日海地7.3级地震后及随后的霍乱暴发后人口流动的规模和趋势;Lu等(2012)在海地地震后也使用同样的数据确定由于避难行为和人口移动,导致首都太子港的人口大量减少,灾害期间的人口流动显著;王昊等(2012)利用基于情感的HITS算法分析了2011年日本9.0级地震发生后一周内,人们在社交媒体上对地震的评论和情绪反应特征;Yusuke(2015)通過Twitter数据,分析了2011年日本东部9.0级大地震发生后东京地区由于地震导致新干线停运,人们无法回家的原因及通勤行为的时空特征;Cheng等(2016)以2011年日本大地震为例,调查了社会媒体如何影响人们对灾难的看法及其在灾后恢复活动方面的行为意图,分析人们对灾难感知产生的不同影响;Li等(2017)通过分析在线设计媒体(Twitter)研究了海地地震和日本地震震后公众在不同阶段的情绪反应模式。上述研究成果为基于社交媒体的地震灾区民众情感分析提供了重要的参考和理论基础。
2013年四川芦山7.0级地震和2017年九寨沟7.0级地震是近年来川滇地区发生的2次大地震,对灾区民众影响广泛而深远,目前利用新媒体手段对2次地震事件进行社会影响数据源获取、情感反应分析等方面的研究存在一定不足。本文基于新浪微博数据,这2次地震为例,获取震后24 h微博数据,探索在地震灾害事件初期灾区民众情感行为和反应的时空模式。
1 研究方法
1.1 技术路线
本文采用基于情感词典和规则相结合的方法,首先获取用于震例研究的微博样本数据集,对数据集进行清洗、去重、去噪、分词等预处理,根据地震关键词规则库提取与地震主题相关的微博语料;然后基于情感词典对微博语料逐一进行分类标记和对比,若该句子无情感词,则确定该条微博无情感倾向,为中性情绪反应;若有情感词,根据情感词的分类和强度判定该条微博情感极性属于正面或负面,对震例样本集所有微博语句进行判定,最终确定此次地震事件民众情感倾向性(图1)。
1.2 地震主题微博提取方法
2013年4月20日四川发生芦山7.0级地震,时隔4年后的2017年8月8日,又发生了九寨沟7.0级地震,2次地震共造成202人死亡,11 995人受伤,27人失踪。2次地震是继2008年5月12日汶川8.0级地震后川滇地区发生的震级最高的地震事件,社会影响广泛。震后数天里,大量与地震相关的信息广泛传播,互联网社交媒体高度关注,成为最热议话题。地震发生后,灾区民众第一时间在微博、微信、QQ空间等社交媒体平台上发布了大量博文、图片、微视频等,其中含有大量与本次地震相关的评论、观点、感悟、心情、情感等社会感知信息。
本文采用新浪微博开放平台提供的数据接口服务功能,获取2次地震发布的带有地理位置信息的微博(廉捷等,2011),震例样本数据集获取内容如下:①采集范围:以芦山(30.3°N,103°E)7.0级地震、九寨沟(33.2°N,103.82°E)7.0地震震中为圆心,250 km为半径,采集研究区约20万km2范围内民众发布的微博数据;②采集时长:地震发生后24 h微博用户发布的数据;③采集内容:微博创建时间、ID、发布内容、来源、图片、地理位置。
获取微博原始震例样本数据集后,如何提取 与地震主题相关的微博是进行情感分析的关键。笔者采用北京理工大学张华平研发的NLPIR汉语分词系统(又名ICTCLAS 2016)分别对获取到的2次地震微博原始数据进行去重、分词等预处理。同时,在前人对景谷6.6级、永善5.0级、九寨沟7.0级、通海5.0级地震微博主题特征词分类研究基础上(表1),参考地震行业相关标准和地震专业术语逐条将微博原始信息与地震主题特征词汇进行关联匹配,结合人工解译和判读,提取与2次地震主题相关的微博语料数据。
1.3 情感分析方法
随着社交媒体软件平台的广泛应用,自然语言处理技术(NLP)也成为国内外学者和研究机构关注的热点,情感分析是自然语言分析处理技术的关键应用之一,目前与主题相关的情感分析技术有基于词典的规则方法、基于表情符号的规则方法、基于词典与规则结合的公式方法、基于机器学习方法和基于语义的分析方法(姚天昉,娄德成,2007;庞磊等,2012;李清敏,张华平,2014;王磊,2018;钮成明等,2018;王华,2018)。构建较为完善的情感词典是进行情感分析研究的基础,本文结合了众多情感字典和情感词资源,以大连理工大学情感词汇本体为基础(徐琳宏等,2008),将情感分为7大类、21小类,情感强度分为1,3,5,7,9共5档,9表示强度最大,1为强度最小(表2)。笔者根据地震情感分析的需要,加入近年地震事件中出现的一些网络新词、连词、程度副词和表情符号等,补充和完善情感词典,便于下一步对微博样本数据集进行情感分析。
传统的情感分析主要是基于情感词典将文本情感极性划分为正面、负面、中性3类,本文基于词典与规则结合的公式方法对震例样本数据集进行情感分析,除传统三分法外,还对民众发布的微博短文本进行更细粒度的情感分类,识别出民众对于地震事件的行为反应所表达的情感:“髙兴” “喜欢” “生气” “厌恶” “恐惧” “悲伤”“无情感”等,再根据每一条博文语料中“正面”和“负面”情感词汇数据最终判定该条微博的情感极性。具体算法如下:
2 结果分析与讨论
2.1 数量统计分析
芦山7.0地震、九寨沟7.0地震发生后的24 h内,分别采集到研究区约20万km2范围内带位置信息的原始微博数据3 498条、5 906条。对2次地震微博原始数据进行去重、分词等预处理后,九寨沟地震中2 396条微博与地震事件相关,占总数68%,芦山地震有2 802条,占总数47%。经过分词解析,统计对比2次地震后微博词频和词云可以看出(表3,图2),2次地震后排名前10位的名词中,“地震”高居首位,其余如“雅安” “余震” “九寨沟” “灾区”等高频词,全部均与地 震相关。从解析出来的排名前10位的动词也可以看出,震后频频提及“发生” “救援” “祈福” “祈祷”等词汇。从2次地震微博中也大量出现针对地震的个人感悟、心情、情感等词汇,如“平安” “安好” “害怕” “悲伤” “失望”等。
基于扩展后的中文情感词汇库,笔者对2次地震事件中与地震相关的5 198条微博进行了关联和匹配,结合人工标记判定,提取微博样本数据集中反映地震情感的主题特征詞汇,其中博文里还出现了大量表达情绪的表情符号(表4)。
2.2 情感极性分析
2次地震发生后,震区民众反应强烈,在社交媒体平台纷纷发布和转发与地震相关的信息。芦山7.0级地震发生在2013年4月20日8时2分,正值周六早晨,灾区大部分民众尚未外出,部分 还在睡觉。震后4 min(2013-04-20 08: 05: 48),震中附近一位微博网友就发布了一条对地震事件的情绪表达和反应:“尼玛,摇了这么久,瞌睡都吓来没有了[抓狂][抓狂][抓狂][抓狂]”。距离震中30 km的网友分享了一张地震灾情照片,照片反映出该区域震感强烈,“器物反应”明显,屋内花盆、塑料瓶翻到。九寨沟7.0级地震发生在21时19分,震中九寨沟景区是全球著名旅游景点,恰逢暑假,大量国内外游客聚集,震后3 min(2017-08-08 21:22: 12),距离震中49 km的一位微博网友就发布了信息:“吃饭的时候桌子在晃,吓得饭店一条街的人都跑出去了。”从这条信息可以看出该区域震感强烈,“器物反应”明显。
震后微博网友发布的内容随意性强,口语化程度高,一条博文中会反应多种情绪表现。根据中文情感词汇本体库,对照“乐” “好” “怒” “哀” “惧” “恶” “惊”7类情感词汇,对2次地震后24 h内发布的5 198条微博进行解析和标记。在芦山地震中,博文中提及“乐好”情感表达词汇的微博有855条、“生气”96条、“恐惧”468条、“悲伤”336条、“疑惑”157条;在九寨沟地震中,“乐好”有1 397条、“生气”6条、“恐惧”283条、“悲伤”246条、“疑惑”77条。