民航恐怖威胁信息预警系统的设计与实现

2017-12-01 05:09贾云飞牛勇钢张俊东吴炎泉
中国民航大学学报 2017年5期
关键词:爬虫舆情威胁

韩 萍 ,王 杰,贾云飞 ,牛勇钢,李 杉 ,张俊东,吴炎泉

(1.中国民航大学天津市智能信号与图像处理重点实验室,天津 300300;2.北京邮电大学泛网无线通信教育部重点实验室,北京 100876;3.科技谷(厦门)信息技术有限公司,厦门 361015)

民航恐怖威胁信息预警系统的设计与实现

韩 萍1,王 杰1,贾云飞1,牛勇钢1,李 杉1,张俊东2,吴炎泉3

(1.中国民航大学天津市智能信号与图像处理重点实验室,天津 300300;2.北京邮电大学泛网无线通信教育部重点实验室,北京 100876;3.科技谷(厦门)信息技术有限公司,厦门 361015)

为监测并及时向民航公安部门提供互联网微博中针对民航的恐怖威胁信息及信息源,提高民航安保效率,给出民航恐怖威胁信息预警系统的设计与实现方案。系统采用主题爬虫技术实现对微博信息的采集,运用情感分析方法评估微博信息的威胁度,并划分威胁等级,综合运用数据可视化技术,为民航公安等机关部门提供预警信息。实际运行与测试结果表明,系统运行稳定且预警效果良好,可为民航公安部门提供有效的预警信息,及时防范不安全事件发生。

民航安保;恐怖威胁信息;预警;微博;主题爬虫;情感分析

?

近年来,针对民航的不法侵害事件屡有发生,其中通过发布各种恐怖信息威胁民航安全的事件占重要组成部分。这些事件行为不仅扰乱了民航业的正常运行,同时也为民航各单位,特别是公安系统带来了繁重的工作任务。恐怖威胁信息有多种发布途径,如电话、论坛、微博等,其中微博的传播速度快、影响广泛、发布者身份不易泄露,成为了一种主要的发布方式[1]。据不完全统计,腾讯微博与新浪微博目前注册用户总数已达十亿数量级别,平均每秒有超过1 000条的新微博产生,日增数据量达到TB级别[2]。随着海量微博信息不断涌现,依靠人工监测微博中的恐怖威胁信息已不现实。目前,针对互联网舆情监测的研究成果已有很多[3-6]。公安部门的舆情监控系统已建立,通过对互联网上各大网站、贴吧、博客、论坛等网络平台舆情信息的跟踪监测,为其提供辅助决策支持[7-8]。也有学者对微博舆情监测展开研究,实现对微博舆论热点话题的发现及追踪[9]。然而,民航领域更侧重于监测互联网上威胁民航安全的信息及信息发布者的相关情况,应用于民航安保领域的恐怖威胁信息预警辅助系统仍未建立。

本文以微博信息为研究对象,针对信息中含有对民航安全构成隐患的恐怖威胁信息进行监测和预警,同时挖掘信息发布者的个人信息、历史言论和朋友圈关系,将相关结果提供给民航公安相关业务部门,协助完成安全预警工作。本文首先介绍系统功能设计、总体架构设计及各模块的设计与实现方案,然后给出相应的运行和测试结果,结果表明系统运行稳定且预警效果良好,可以实时为民航公安部门提供预警信息,配合公安部门防范不安全事件发生。

1 系统设计方案

1.1 系统功能及总体架构设计

民航恐怖威胁信息预警系统设计目标是:监测微博用户发布的针对民航的恐怖威胁信息,评估其威胁度,划分威胁等级并及时预警。同时,追踪发布者的历史微博言论及社交朋友圈,用以防范针对民航的恐怖主义活动,降低民航安保风险、提高民航安保效率。

系统功能设计包括:①数据实时采集功能,采集与民航安全相关的微博信息,锁定重点关注人员并追踪其历史信息和朋友圈人员信息;②数据分析处理功能,自动评估微博信息的威胁度,划分威胁等级,并进行预警;③灵活展示功能,可将采集到的与民航安全相关的微博信息和重点关注人员的个人基本信息、微博历史言论、朋友圈关系等信息存储后,建立索引,并以图表、关系图谱、报告文本等多种形式呈现。

为实现上述各项功能,将系统划分为微博信息采集入库、微博信息分析与呈现和系统管理3大功能模块。其中,微博信息采集入库模块负责根据业务需求采集微博信息,并将数据结构化处理后存入数据库中,同时建立索引,为数据的快速检索提供操作接口;微博信息分析与呈现模块负责对数据库中的微博内容进行威胁度评估、划分威胁等级和威胁预警,并将分析后的微博信息以图表文档和人物关系图谱的形式进行展现,满足对微博数据的可视化,实现人机交互;系统管理模块用于管理员对系统功能进行维护和管理。系统的功能结构及总体架构如图1所示。

1.2 微博信息采集入库模块设计

民航恐怖威胁信息预警系统面向的用户是民航安全保卫部门,他们所关注的信息重点是民航安全领域。从性能和成本两方面出发,系统不会对整个微博内容做遍历抓取,而只获取与民航安全相关的微博内容。主题网络爬虫可有针对性地采集Web信息,运用关键词进行内容匹配,获取页面中与特定主题相关的内容,大量与主题无关的内容将被舍弃,从而提高信息采集的精准度,提升爬虫性能。

图1 系统功能结构及总体架构Fig.1 System function structure and over all architecture

为实现对微博信息的智能采集和数据存储,系统运用Scrapy开源爬虫框架[10]将微博信息采集入库模块划分为4个主题爬虫:①关键词爬虫,建立与民航安全相关的关键词库,对库内的每一个关键词采用循环检索的方式,搜索过滤出与民航安全相关的微博信息内容;②个人信息爬虫,基于关键词爬虫的采集结果,抓取发表这些微博的用户个人信息;③用户历史言论爬虫,基于关键词爬虫的采集结果,抓取发表这些微博的用户的历史微博言论信息;④用户朋友圈关系爬虫,微博用户之间互相@和互相转发微博,使其之间产生了@关系和转发关系,也就构成了一个人的朋友圈。爬虫抓取重点关注微博用户发布微博内容中的@用户和转发用户,同时获取@用户和转发用户的个人信息。爬虫采集的微博信息如表1所示,完成一次微博信息采集的流程如图2所示。

表1 微博信息列表Tab.1 Microblog information list

系统启动后,会自动根据建立的关键词库,启动关键词爬虫抓取与民航安全相关的微博信息,进行结构化处理后存入数据库中;同时,系统对抓取到的每一条微博内容进行微博情感评分,判别威胁等级,并将威胁等级高的微博信息发布者作为重点人员;然后,启动个人信息爬虫、用户历史言论爬虫、用户朋友圈关系爬虫抓取重点人员的微博信息,将这些微博数据进行结构化处理后存入数据库中;最后,系统从数据库中提取需要交互呈现的微博信息创建数据索引,为数据交互提供接口。

图2 微博数据采集流程Fig.2 M icroblog data collecting process

1.3 微博信息分析呈现模块设计

系统采用微博情感倾向性分析实现对微博数据的威胁度分析。具体分析方法是将词典和词语相似度两种方法结合起来提取情感词,然后用语义规则和表情符号计算得到最终微博内容的情感分值,详细方法参见文献[11]。系统根据情感分值大小划分出高、中、低3个威胁等级,其中低威胁等级的微博内容可认定为几乎对民航安全没有威胁,中威胁等级的只需民航安保部门适当关注,而对需要重点关注的高威胁等级微博内容进行预警提示。同时,将分析结果存入数据库中。微博信息分析流程如图3所示。

图3 微博信息分析流程Fig.3 Microblog information analyzing process

微博信息的分析结果采用列表的形式在页面中展示,并生成简报以供提取。另外,系统利用ECharts来制作各种微博数据的统计分析报表;而对于微博用户之间的@关系和转发关系,则采用D3组件中关系图谱的形态,以直观的方式展示出微博用户间关系及权重。将用户实体作为节点,用户实体与实体之间的@关系和转发关系作为边。以单个微博用户为例:将重点关注的微博用户作为中心,扩展出一段时间内与其有@关系和转发关系的朋友圈人员,以此类推,通过对任意用户节点的朋友圈关系扩展,形成具有一定关联数据规模的人物关系图谱。

1.4 系统管理模块设计

系统管理模块主要用于系统管理员配置维护系统正常运行所需的各种参数,并对系统各模块功能进行管理。系统管理模块包括:系统用户管理、微博重点人员管理、预警方案配置、爬虫参数配置、民航关键词维护等。其中,用户管理负责管理系统用户;关键词设置负责管理和维护民航关键词;爬虫规则负责对关键词爬虫、重点人员历史言论爬虫、朋友圈爬虫、个人信息爬虫的运行参数进行配置;预警规则是针对抓取的微博数据,设置对应的筛选过滤条件,经过此规则筛选过滤后,系统可自动将威胁度较高的微博用户加入重点人员名单中;重点人员管理负责管理系统筛选出的重点人员。系统管理模块的核心功能结构如图4所示。

图4 系统管理模块核心功能结构图Fig.4 Core function structure diagram of system management module

2 系统实现

在上述设计方案的基础上,整个系统在Windows7上使用Eclipse集成开发工具进行编码实现,开发语言以Java为主。采用B/S架构设计,使用HTML+CSS+Jquery+JSP的前台技术开发具有Bootstrap风格的前台界面;使用Spring+SpringMVC+MyBatis的后台框架进行系统核心业务的处理;使用Spring-Task任务调度机制,完成微博数据分秒级的评分过程;使用Javascript中的定时任务处理机制实现系统实时监测预警功能;使用Solr搜索服务器[12]实现对微博数据的高级检索功能;数据库管理系统采用Mysql5.7;以Tomcat8.0为Web服务器。

系统的硬件运行环境,根据功能的不同,由数据采集服务器、数据存储服务器、系统应用服务器组成,所有机器均为DELL PowerEdge R730服务器,内存16 G,硬盘5 T,Centos6.5操作系统。

3 系统运行与测试

3.1 模拟场景测试

1)关键词库建立 汇总近几年针对民航的恐怖威胁信息中常见的200多个关键词,建立民航安保关键词库,如劫机、炸机、冲跑道、炸弹、空闹等。这200多个用于搜索的关键词基本覆盖了民航安全领域需要关注的舆情信息。

2)测试 采用模拟场景方式对系统的核心功能进行测试。由5个人分别使用各自微博账号,发布低、中、高不同威胁等级的民航安全相关信息各10条,共计150条,并互相@和转发微博,观察系统的运行状态。模拟发布的部分微博信息范例如表2所示。

表2 各威胁等级微博信息示例Tab.2 M icroblog information samples for threat levels

3)测试结果与分析 150条微博信息的抓取与分析处理结果如表3所示。

表3 威胁等级研判对比统计Tab.3 Comparison and statistics of threat levels(条)

表3中给出了系统研判结果及人工研判结果。以其中一条微博信息为例:微博用户“航大**”发布“我要爆**机场了啊,我也是被逼的**!”。系统的关键词爬虫以“炸机”为关键词采集到该条微博信息,包括微博用户账号、昵称、微博内容、发布时间、转发数、评论数、点赞数等,并将该条微博判定为高威胁等级。微博信息的分析预警界面如图5所示,追踪的该微博用户的朋友圈关系图谱如图6所示。

图5 微博信息分析预警界面Fig.5 Microblog information analysis and warning page

图6 朋友圈关系图谱显示Fig.6 Circle of friends relation ship map

由系统的运行结果可看出,系统可很好地实现对微博信息的采集、分析预警和可视化等相关功能,整体运行稳定且性能良好。

3.2 实际运行测试

以新浪微博为例,系统利用已建立的关键词库连续采集了近一个月的与民航安保相关的微博信息,采集时间为2017-03-01—2017-03-27。实际运行结果如表4所示。

表4 2017-03-01—2017-03-27微博威胁信息数量统计Tab.4 Microblog threat in formation statistics(2017-03-01—2017-03-27)(条)

在此期间,系统共采集了105 823条相关微博,经系统分析与判别,其中有103 587条属于低威胁等级,中威胁等级有2 168条,有68条微博信息被判别为高威胁等级。经人工对这些信息进行分析,低威胁等级微博信息多是在谈论民航安全的相关话题;中威胁等级微博信息多数是有关民航事件的新闻、热点话题和转发事件信息;而68条高威胁等级的微博信息大多属于微博用户在发泄情绪,但有些微博确实值得民航公安部门引起注意。如微博用户“璀璨**”在2017年3月21日发布的一条微博上称:“本来和鑫哥计划了两年的劫持飞机,但是**今天买票一上飞机我就开始方了,到底是坚持原计划劫机呢,还是放弃这次行动。鑫哥叫我放弃,但是我不甘心,不甘心这两年的计划泡汤。”(未对微博原文做不当文字、别字修改)此类微博信息民航公安部门应及早关注,以防危害民航安全事件的发生。

4 结语

本文针对互联网微博出现的威胁民航安全的言论信息,结合民航安保部门的业务需求,给出了民航恐怖威胁预警系统的设计与实现方案。系统采用主题爬虫技术实现了对民航安全相关微博信息的采集;利用微博情感分析方法评估微博内容的威胁度并预警;同时对信息发布者的朋友圈进行追踪和关联,通过可视化技术分类呈现所需信息。从实际运行效果看,系统已基本达到了设计目标,整体运行良好,可作为民航安保部门的辅助情报提供系统。后续工作将在信息威胁度评估及威胁等级划分方法上开展进一步研究,以提高预警效果,降低虚警率。另外,本系统不仅可用于微博恐怖威胁信息预警,也可应用于其他社交媒体,如微信、QQ、论坛等平台的恐怖威胁信息预警。

[1]张岚岚.新浪微博的网络舆情分析研究[D].上海:华东师范大学,2011.

[2]杨爱东,刘东苏.基于Hadoop的微博舆情监控系统模型研究[J].现代图书情报技术,2016,32(5):56-63.

[3]李丽清.网络舆情监控与分析系统的设计与实现[D].西安:西安电子科技大学,2014.

[4]唐 勇.互联网舆情监控系统的设计与实现[D].北京:北京邮电大学,2013.

[5]ZHA Xin,LI Liangming.Construction of Distributed System for Network Public Opinion Monitor and Analysis[C]//Advances in Information Technology and Education,Berlin Heidelberg:Springer,2011:120-125.

[6]LI Yongzheng,ZHANG Mingshan.Design and implementation of internetpublic opinion monitoring system[J].Advanced Materials Research,2014(926-930):1902-1905.

[7]武文婷.基于微博的公安舆情监控系统研究与实现[D].长春:吉林大学,2014.

[8]曾 镭.公安舆情监控系统设计与实现[D].成都:电子科技大学,2013.

[9]陈彦舟,曹金璇.基于Hadoop的微博舆情监控系统[J].计算机系统应用,2013,22(4):18-22.

[10]SCRAPY[EB/OL].[2016-06-11].https://scrapy.org/.

[11]HANP,LIS,JIA Y.A Topic-Independent Hybrid Approach for Sentiment Analysis of Chinese Microblog[C]//International Conference on Information Reuse and Integration,IEEE Computer Society,2016:463-468.

[12]SOLR[EB/OL].[2016-10-05].http://lucene.apache.org/solr/.

?

《中国民航大学学报》投稿须知

本刊投稿采用网上投稿,不接受电子邮件等其他方式投稿,投稿网址:www.cauc.eud.cn/xb。本刊未委托或授权其他任何网站或机构开展组稿活动,请作者投稿时认准我刊唯一投稿网址,请勿相信其他机构或人员,如遇到假冒我刊的网站或人员可致电编辑部进行举报,举报电话:(022)24092327,举报电子邮箱:xuebao@cauc.edu.cn。热忱欢迎广大作者关注《中国民航大学学报》并惠赐佳作。

Design and implementation of civil aviation threat information early warning system

HAN Ping1,WANG Jie1,JIA Yunfei1,NIU Yonggang1,LIShan1,ZHANG Jundong2,WU Yanquan3
(1.Intelligent Signal and Image Processing Key Lab of Tianjin,CAUC,Tianjin 300300,China;2.Key Lab of Universal Wireless Communications,Beijing University of Posts and Telecommunications,Beijing 100876,China;3.Tech Valley (Xiamen) Information Technology Co,Ltd,Xiamen 361015,China)

To monitor terrorists’ threat information from microblog and to improve the aviation security efficiency,an early warning system of civil aviation terrorist threat information is proposed.Topic crawler technique is used to collect microblog information from internet and evaluate their threats level with sentimental analysis method.Data visualization technology is also adopted to show the information for civil aviation public security department.Operation results show that the system runs stably and has good warning performance,which can prevent unsafe events effectively.

civil aviation security;terrorist threat information;early warning;microblog;topic crawler;sentiment analysis

韩萍(1965—),女,天津人,教授,博士,研究方向为图像处理与模式识别.

V328;TP311

A

1674-5590(2017)05-0036-05

黄 月)

2017-03-10;

2017-04-11

中国民航局安全能力建设基金项目(20600327,20600418,20600419)

猜你喜欢
爬虫舆情威胁
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
人类的威胁
大数据背景下校园舆情的爬虫应用研究
数字舆情
数字舆情
大数据环境下基于python的网络爬虫技术
消费舆情
搞笑图片