白 华, 林勋国
(1.哈尔滨工业大学 管理学院,黑龙江 哈尔滨 150001;2.澳大利亚联邦科工院,澳大利亚 堪培拉 2601)
基于中文短文本分类的社交媒体灾害事件检测系统研究*
白华1, 林勋国2
(1.哈尔滨工业大学 管理学院,黑龙江 哈尔滨 150001;2.澳大利亚联邦科工院,澳大利亚 堪培拉 2601)
摘要:随着移动互联业务的蓬勃发展,在灾害信息传播的过程中,不同类型的社交媒体在一个个突发性灾害事件中显示出了强大的力量。以微博为代表的在线社交媒体因在信息传播速度、传播内容、传播形式及传播效果等方面的优势,确立了其在灾害应急管理中特殊的传播价值。鉴于此,利用成熟的文本挖掘技术,面向中文新浪微博平台,开发了高效的灾害事件即时检测系统,从而能充分利用近于实时的灾害博文数据,使其更好地为灾害应急管理过程服务,有效提高灾害的应急管理能力。
关键词:社交媒体; 新浪微博; 灾害信息; 灾害检测
进入到21世纪以来,自然灾害在世界范围内造成了严重的经济损失和人员伤亡,毋庸置疑,日益恶化的自然环境及不断加快的城市化进程加重了这一趋势。遗憾的是,许多突发重大灾害难以及时预测,灾害的影响区域及人群也难以准确估计。由此,有效提高灾害的应急管理能力至关重要。信息的收集、处理和交流是突发灾害应急管理过程中的重大挑战。充足、准确、及时的灾害信息在防灾减灾过程中发挥着重要作用,可以有效降低灾害风险,减少灾害损失。
随着移动互联业务的蓬勃发展,以微博为代表的社交媒体应用已经成为人们生活中不可缺少的重要组成部分,微博等社交媒体平台也已成为灾害信息管理过程中的重要信息来源和沟通媒介。2004年亚洲海啸事件中,许多第一手资料及统计来自社交网络,包括幸存者的经历、新闻信息的发布、救援努力、人道主义援助以及灾害情绪释放等等[1];美国红十字会的调研[2]表明,当灾害事件发生后而911(应急)电话无法接通时,20%的美国民众通过移动应用收到灾害信息,76%的美国民众通过社交媒体发布求助信息,40%的美国民众在灾害事件中采用社交媒体与亲人取得联系; 2013年10月,受台风“菲特”的影响,浙江余姚遭遇了建国以来的最大降雨量,由于部分通讯及交通基础设置瘫痪,救援人员无法及时进入灾区,余姚市部分县镇成为了一座座“孤岛”,在无线网络仍能发挥作用的情况下,社交网络扮演了信息高架桥的角色。KCIS观察发现[3],灾害发生一周内,关于“余姚水灾”的微博搜索超过30万条,而且很多灾民利用评论及回复功能通过“@余姚发布”来发布受困求助信息。
近几年,美国、澳大利亚、日本等国家先后开展相关领域的研究,并取得较大的进展。他们相继开发了“Did You Feel it?”[4], “Toretter”[5-6], “Twicident”[7], “Tweet4act”[8], “CrisisTracker”[9], “Ushahidi platform”[10], “Twitter Earthquake Detector”[11], “Emergency Situation Awareness”[12], “EARS”[13]等面向互联网用户及社交媒体 (Twitter) 用户的灾害事件检测应用系统。
中国幅员辽阔,人口众多,自然灾害频繁发生。近些年,随着经济和科技的快速发展,越来越多的中国人拥有电脑和手机,并开始使用在线社交媒体。根据中国互联网信息中心的报告[15],截至2013年末,中国微博用户达到了2.81亿,其中接近70%用户用手机的方式登陆微博账号。因此,中文灾害微博信息的研究势在必行,并且具有充分的数据资源。
然而,当前国内对利用社交媒体来进行灾害信息管理的趋势尚未足够重视,相关研究成果较少。Qu 等[16]和Zhou 等[17]均对青海玉树地震后的相关微博进行了研究,前者主要分析了灾害相关微博的内容、趋势和扩散路径,后者则从救援角度采用贝叶斯算法将灾害博文分类,但是,二者均未涉及灾害事件的检测方法研究。
基于此,本文利用自然语言处理及文本挖掘技术,面向中文微博平台,开发高效的灾害事件检测方法,从而充分利用中文灾害微博数据,使其更好地为灾害应急管理过程服务,有效提高灾害的应急管理能力。
1中文短文本分类
1.1分类方法
经过观察可以发现,灾害爆发后,微博平台往往会在在短时间内产生大量的相关博文,存在严重的信息冗余现象。因此,我们需要对相关博文进行文本分类,从而为后续救援提供及时、准确的灾区信息。微博文本一般比较短,且在表达方式上非常口语化,经常包含大量的表情符号、标点符号及网络用语等,这一特点为文本分类领域的研究提出了很大的挑战。本研究过程中主要讨论了四种常见的文本分类算法:支持向量机(Support Vector Machine)、朴素贝叶斯(Na?ve Bayes)、K近邻(K Nearest Neighbor)及随机森林(Random forests)。这四种方法均在传统文本分类领域中取得了很好的分类效果,但在面对不同特征属性的样本时表现各异,各有优劣[18-20]。
1.2训练集
为了训练事件分类器,需要收集历史微博数据作为训练集。根据新浪微博API的调用方法,我们在新浪活跃用户中随机选择50 000用户作为采集目标,采集其最新的1 000条微博信息。由于很多用户历史微博信息数量尚未达到1 000条,最终,历史数据集中包含了近2 600万条微博信息。在此基础上,我们采用关键词(如“地震”等)过滤的方式获取灾害微博数据集。然后,在这个数据集中进行人工筛选,抽取与灾害事件相对应的即时灾害信息作为Positive 数据集 (标签“+”), 同时随机抽取等量的不相关信息(此类信息也包含灾害关键词但不为即时信息)作为Negative数据集(标签“-”)。筛选后的训练集如表1所示。经过人工筛选及标注,地震相关微博文本训练集合计包括了934条信息(其中467条含即时相关信息,另一半含非即时信息或非相关信息)。
1.3特征选择
在对训练集数据进行观察后,可以发现即时地震信息往往较短,包含问号或感叹号,文字中经常提到“晃”、“摇”等描写地震感觉词语。为了更好地进行特征提取,不遗漏重要特征,在分类器构造过程中,我们采用了10-fold交叉方法对所有特征组合进行了测试。因此,针对每一个分类算法,我们进行了28-1=255次试验,分别获取了各个分类算法中任一特征组合的准确率(Accuracy)、F1值、精确率(Precision)及召回率(Recall). 根据测试结果,最终为四个分类算法选取最优特征组合如表2所示。
1.4训练集最优规模测试
经过上一节所示的特征提取过程后可以发现,支持向量机分类器表现最为优异,F1值达到了到0.890。但是,由于我们是预设的训练集,因此尚不确定训练集规模变化对各个分类器表现的影响,也不确定更大规模的训练集是否可以取得更好的分类精度。由此,需要进行最优训练集规模测试,以确定不同大小的训练集规模对测试结果的影响。
从图1中可以看出,地震数据集的最优训练规模大致为600条信息,且随着地震数据量的增加,准确率、召回率及F1值之间的差异逐步缩小,这说明扩大训练集规模对提高分类器精度是无意义的。
表1 训练集示例
表2 最优特征组合
图1 最优规模测试结果
2系统框架及其可视化
2.1系统框架
本文主要解决的问题是检测灾害事件发生后的即时微博相关信息,从而为后续的救援过程提供帮助。因此基于网络舆情计算的基本流程,本系统的基本框架设计如图2所示。
图2 新浪微博灾害事件检测系统框架结构
2.2数据采集
新浪微博API为开发者提供了不同目标的数据调用接口,本文介绍的新浪微博灾害事件检测系统中主要调用“statuses/public_timeline”接口,从而获取最新的公共微博。根据新浪微博数据开放平台介绍,这一接口单页可以返回最多不超过200条信息(博文)。由此,基于新浪微博API 对用户请求的限制(每小时不超过150次,即每24s可以发送一次请求),本系统系统近于实时的数据流量大致为每小时近30 000条或每天大约72万条(如图3所示)。采用这一方法方法获取的公共微博是随机的,没有指定用户,因此可以排除统计偏差。
图3 数据采集量示意图
2.3数据处理
数据处理模块主要包括两个步骤,一是实现数据的实时过滤,二是对过滤后的数据进行文本分类。由于系统采集的数据包括大量信息,其中仅含有部分相关信息,噪声量巨大。为了简化系统的计算过程,实现即时检测目的,本研究采用关键词过滤的方法实现对大量数据的实时过滤。在对历史数据进行文本分析的基础上,选取灾害密切相关的关键词作为过滤词。经过测试,系统当前采用的过滤词如表3所示。
表3 系统预设关键词列表
基于短文本分类实验结果,系统当前采用支持向量机作为文本分类算法,对过滤后的相关信息进行分类。除上文所述地震即时信息分类器外,我们使用相同的方法,在历史数据的基础上,面向火灾、暴雨、台风、洪水分别进行特征选择和训练集规模测试,为各个灾种构建了即时灾害信息分类器。
2.4可视化
为了更加直观地呈现微博信息灾害检测过程,我们面向新浪微博平台开发了灾害事件检测系统界面(SWIM,https://swim.csiro.au/swim/index.html)。如图4所示,这一界面主要由四部分组成。
图4 SWIM系统界面
(1)中国行政区划图。地图起用于OpenStreetMap的界面,可以放大、缩小或移动,应用者可以根据地图选择目标省域,自定义检测地区。如果选择了一个省或市,系统的关键词搜寻将集中在来源于这个地区的博文里进行,若应用者未使用这一功能,则系统默认在全网范围内进行灾害爆发检测。
(2)自定义功能区。这一区域位于地图下方,应用者可以自定义检测时间段及检测关键词。SWIM系统提供了“系统预设关键词”及“用户自定义关键词”两种关键词过滤方法,提高了系统的灵活性,同时有效地扩大了系统的应用范围。此外,用户还可以自定义搜索时间段。
(3)关键词频率(Keyword Counts /15 min)曲线。这一曲线直观地呈现了包含灾害关键字的微博信息数量变化过程,显示了关键词的数目和时间的关系图,如果关键词相关灾害事件爆发,很可能会产生峰波,增加了确认事件发生的准确度。
(4)相关微博示例区。系统界面右侧显示了在自定义地区、时间段、关键词的情况下,系统自动采集的原始微博信息示例(当前,系统设定最多可显示1 500条信息)。显示的每条原始博文还包括微博用户名、头像和注册地区。如果用户手机的GPS开启,则博文后端显示信息发送时用户的具体位置。示例区的功能,提供了人工复查博文内容的可能性,也扩展了本系统的应用范围。界面上,如果微博信息被标注为红色(地震),意味着博文经上节所述分类器分类为即时灾害信息,且在右下角显示了检测系统运算出来的成功概率作为参考。
3结论与讨论
现代社会,在自然灾害发生后,灾情信息的传播过程高度依赖于互联网社交媒体平台。因此,社交媒体的灾害信息管理能力对于整体应急救援响应行动的开展至关重要。本文面向新浪微博平台,探索高效的中文灾害微博信息分类算法,借鉴澳大利亚科学院研发的英文推特灾害实时预警系统(ESA)的经验,开发了新浪微博灾害事件检测系统(SWIM),成功实现了基于社交媒体平台的地震等灾害事件检测。
中国曾被称为“灾荒之国”,洪涝、干旱、台风、风暴潮、地震、森林草原大火等自然灾害种类繁多,发生频率高,分布地域广。这一现状为当前的灾害事件检测系统提出了更高的挑战。首先,当前的SWIM系统只实现了地震等既定灾害的爆发检测,未来将探索更多种灾害的综合分类器,以实现其他灾种及突发事件的实时检测;其次,对SWIM系统应继续完善,开发后续的灾害预警模块;第三,面向灾害救援响应过程,拟探索中文短文本聚类方法,根据灾害救援需求,实现合理的话题聚类与分析,从而更好地利用社交媒体平台的实时信息为救援减灾过程服务。
参考文献:
[1]Dorothy E Leidner, Gary Pan and Shan L Pan. The role of IT in crisis response: Lessons from the SARS and Asian tsunami disasters[J]. Strateg. Inf. Syst.,2009,18(2):80-99.
[2]American Red Cross. More Americans using mobile apps in emergencies [EB/OL]. (2012-08-31) [2013-04-10]. http://www.redcross.org/news/pressrelease/More-Americans-Using-Mobile-Apps-in-Emergencies.
[3]马化展, 常媛媛, 陈泽然. 水灾7天:余姚的红与黑[EB/OL].(2013-10-14)[2013-10-16]. http://www.kcis.cn/4409
[4]USGS. Did you feel it? [EB/OL]. (2005-03-21)[2012-09-26]. http://earthquake.usgs.gov/earthquakes/dyfi/.
[5]Takeshi Sakaki, Makoto Okazaki and Yutaka Matsuo. Earthquake shakes twitter users: real-time event detection by social sensors[C]//The 19th International Conference on World Wide Web, WWW’10. New York,ACM 2010:851-860.
[6]Takeshi Sakaki, Makoto Okazaki and Yutaka Matsuo. Tweet analysis for real-time event detection and earthquake reporting system development [J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(4):919-931.
[7]Fabian Abel, Claudia Hauff, Geert-Jan Houben,et al. Twitcident: fighting fire with information from social web streams[C]//The 21st International Conference Companion on World Wide Web, WWW’12Companion. New York: ACM, 2012:305-308.
[8]Soudip Roy Chowdhury, Muhammad Imran, Muhammad Rizwan Asghar,et al. Tweet4act: Using incident-specific profiles for classifying crisis-related messages[C]// The 10th International Conference on Information Systems for Crisis Response and Management (ISCRAM). Kmstiansand: ISCRAM, 2013.
[9]Jakob Rogstadius, Maja Vukovic, Claudio Teixeira,et al. Crisistracker: Crowdsourced social media curation for disaster awareness[J]. IBM Journal of Research and Development, 2013, 57(5):411-413.
[10]Omidyar Network. Ushahidi: The African Software Platform Helping Victims in Global Emergencies[EB/OL]. (2013-1-22)[2013-7-08]. http://www.ushahidi.com/.
[11]Paul S Earle, Daniel C Bowden and Michelle Guy. Twitter earthquake detection: earthquake monitoring in a social world[J]. Annals of GeoPhysics, 2012, 54(6):708-715.
[12]Mark A Cameron, Robert Power, Bella Robinson, et al. Emergency situation awareness from Twitter for crisis management[C]//The 21st International Conference Companion on World Wide Web, WWW ’12 Companion. New York:ACM, 2012:695-698.
[13]Bella Robinson, Robert Power and Mark Cameron. An evidence based earthquake detector using twitter[C]//The Workshop on Language Processing and Crisis Information. Nagoya:LPCI, 2013:1-9.
[14]Marco Avvenuti, Stefano Cresci, Andrea Marchetti,et al. EARS (earthquake alert and report system): a real time decision support system for earthquake crisis management[C]//The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD’14, New York:ACM, 2014: 1749-1758.
[15]中国互联网络信息中心.第33次中国互联网络发展状况统计报告[EB/OL].(2014-01-16)[2014-01-20]. http://www.199it.com/archives/187745.html.
[16]Yan Qu, Chen Huang, Pengyi Zhang, et al. Microblogging after a major disaster in China: a case study of the 2010 Yushu earthquake[C]//The ACM 2011 Conference on Computer Supported Cooperative Work,Hangzhou,ACM 2011:25-34.
[17]Yanquan Zhou, Lili Yang, Bartel Van de Walle, et al. Classification of microblogs for support emergency responses: Case study Yushu earthquake in China[C]//The 46th Hawaii International Conference on System Sciences. Hawaii:IEEE, 2013: 1553-1562.
[18]Burbidge R, Trotter M, Buxton B, et al. Drug design by machine learning: support vector machines for pharmaceutical data analysis[J]. Computers and Chemistry. 2001, 26 (5):5-14.
[19]Beyer K, Goldstein J, Ramakrishnan R, et al. When is “nearest neighbor” meaningful?[C]//Database Theory-ICDT’99. Israel:IEEE,1999:217-235.
[20]Breiman L. Random forests[J]. Machine learning, 2001,45 (1): 5-32.
Sina Weibo Disaster Information Detection Based on Chinese Short Text Classification
Bai Hua1and Lin Xunguo2
(1.SchoolofManagement,HarbinInstituteofTechnologyUniversity,Harbin150001,China;2.CSIRODigitalProductivityFlagship,G.P.O.Box664,AustraliaCanberra,ACT2601)
Abstract:Weibo, a popular Chinese social media service, has received much attention recently. More and more people use Weibo as an information tool, especially when the disaster happens. We present a work to develop a disasters detector based on Sina Weibo messages. This system captures public messages from Sina Weibo platform at first, and then processes messages filter and text classification to determine if messages correspond to people experiencing a disaster. We also offer an interface for users to view the processed messages. Our long term aim is to develop a general alert stem for various disaster event types in China, and it would be very useful for the disaster rescue.
Key words:social media; Sina Weibo; disaster information; disaster detection
doi:10.3969/j.issn.1000-811X.2016.02.005
中图分类号:X43
文献标志码:A
文章编号:1000-811X(2016)02-0019-05
作者简介:白华(1985- ),女,辽宁沈阳人,博士研究生,主要研究方向为灾害信息学. E-mail: baihua1727@163.com
基金项目:国家自然科学基金资助项目(71372091),国家留学基金委公派联合培养博士生资助项目(201306120166)
*收稿日期:2015-09-16修回日期:2015-11-07
白华,林勋国. 基于中文短文本分类的社交媒体灾害事件检测系统研究[J].灾害学, 2016,31(2):19-23.[ Bai Hua and Lin Xunguo. Sina Weibo Disaster Information Detection Based on Chinese Short Text Classification[J].Journal of Catastrophology, 2016,31(2):19-23.]