钱蕾,周玮腾,韩宝明
城市轨道交通运营突发事件数据可视化分析
钱蕾,周玮腾,韩宝明
(北京交通大学 交通运输学院,北京 100044)
城市轨道交通运营突发事件管理对地铁安全和高效运营具有重要的意义。针对非结构化的地铁突发运营信息数据,通过整合处理并进行多粒度、多层次、多角度地分析,从单因素、时间序列、空间维度和时空关联几个方面研究不同类型突发运营事件与时间、区段的关联性,有助于为地铁突发运营事件的高效分析、安全预防、辅助决策和预案制定提供数据依据和技术支撑,提高地铁运营的系统安全性。
城市轨道交通;突发运营信息;可视化分析;Python爬虫;非结构化数据
近年来,随着城市轨道交通运营里程的不断增大,网络化规模越来越复杂,由人、车辆、轨道、信号、供电等导致的地铁突发运营事件也不断增多[1]。城市轨道交通突发运营事件普遍会造成列车运行间隔加大、列车晚点等后果,不仅会给乘客的出行带来极大的不便,如果疏于防范和处置,严重时还会造成极端的运营安全事故,是目前运营管理部门所面临的巨大挑战。科学合理地对突发运营信息进行数据分析和挖掘能为突发事件下的地铁运营安全防范和预案制定提供决策依据,具有重要的实际意义。目前,城市轨道交通突发运营信息数据的研究主要集中在数据的应用层面,如基于突发事件的城市轨道交通应急平台搭建和体系建设[2−3],而针对数据本身的分析和研究较少。随着互联网技术的发展,针对数据本身的可视化分析逐渐被应用在交通领域。可视化作为一种统计学工具特别是伴随大数据分析而崛起的技术分支,用于创建一条快速认识数据集的捷径,正逐步成为一种令人信服的表现与沟通手段[4]。WANG等[5]从北京出租车出行数据中提取数据并可视化,发现城市中交通拥堵的路段,同时推断出造成交通拥堵的原因。Andrienko等[6−7]从机动车的GPS轨迹中提取事件的时间地点等因素,并在三维时空中对数据进行可视化分析,探索机动车的出行规律。Ferreira等[8]利用纽约市的出租车出行数据设计了可视化检索和分析工具,同时分析了纽约不同时间段的乘客出行模式。在城市轨道交通大数据可视化研究方面,李得伟等[9]阐述了轨道交通大数据在统计、应急辅助决策、乘客出行诱导、客流预测和调度管理等方面的应用,并揭示了数据可视化是数据分析的关键技术。李伟等[10]从网络、线路、断面、车站等层面对城市轨道交通客流大数据可视化,以便对数据作进一步的分析研究与信息挖掘。但是关于城市轨道交通可视化分析的文献还比较少,在城市轨道交通突发运营信息领域尚未得到有效应用。另一方面,由于城市轨道交通突发运营信息的特殊性,目前公开程度较少,获取渠道较为匮乏,数据的获取难度较高。目前国内外专家学者在面临同类问题时已经开始从社交媒体中获取信息并进行分析与研究。Itoh等[11]从东京地铁智能卡系统和推特网中提取东京地铁异常信息的数据,探索东京地铁异常现象的原因和影响。PAN等[12]从发布在社交媒体中的动态中挖掘代表性术语来检测出行异常行为,提出了一个交通异常检测分析系统,并利用北京3个月的出租车出行数据验证了系统的有效性。GU等[13]从推特网中爬取并过滤公路的事故信息,并对事故信息进行分析以挖掘其内在规律,以便事故预防与决策。近年来,国内地铁集团已经开始通过社交平台向外推送实时突发运营状况,并提供应急预警服务,让乘客及时调整出行路线[14]。作为非结构化的数据(如文本,视频等),该部分数据表征了详实的突发运营信息,可为本文研究提供数据来源。综上所述,本文以社交平台推送的突发运营信息数据为研究对象,利用爬虫技术进行数据的采集,结合正则表达式进行非结构化数据的处理,综合可视化分析方法实现标准化后的数据的多维度分析,为城市轨道交通的运营安全监管和风险评估提供有力依据。
社交平台上的数据种类丰富,量级庞大,存储形式多样,其中推送的突发运营信息数据属于开源的非结构化数据,包含文本和图片等内容。为了进一步对突发运营信息数据进行提取,本文运用Python网络爬虫技术,使用“Selenium库”、正则表达式、DOM 选择器、“BeautifulSoap库”等解析方式爬取社交平台实名认证用户“XX地铁”突发运营信息的相关内容,并对相关数据进行处理,具体流程图如图1所示。
数据收集的具体流程如图1中A部分所示,即登录社交平台后找到需要爬取信息的页面,并对其内容进行储存,此时的数据结构为非结构化数据。图1中的B部分给出了数据处理的主要流程,每条爬取下来的社交平台数据作为输入,对输入的数据进行处理,处理后的输出数据即为突发运营信息结构化数据。
考虑到社交平台非结构化数据的特征,Python作为一种抽象程度比较高的解释型、交互式、面向对象的计算机语言,有大量面向网络的函数库,可以提高数据获取的效率[15],于是本文选择了Python中的爬虫相关技术来完成数据的获取。通过“Selenium库”的“webdriver”驱动打开浏览器,给“XX地铁”社交平台主页发送模拟登录请求,在“Headers”中可以看到 Request URL地址,根据参数变化的规律总结出参数所代表的意义,从而定义一个简单搜索页面 URL。然后循环来抓取社交平台正文每一页数据,并利用“Beautiful Soup库”和“XPath库”解析网页的HTML,首先找到网页的主体“body”部分,从“body”中获取发布日期及内容等有用信息。最后,新建“XXX.txt”文件,并规定写入方式和编码格式,对爬取的数据进行过滤,如果数据中包含“突发运营信息”,就将这条数据写入“XXX.txt”文件中,数据格式如图2所示。
图1 流程图
图2 突发运营信息非结构化数据
为保证数据格式的一致性,利用正则表达式将社交平台内容中的一些特殊符号删除,如URL和热点标签等,本文的正则表达式为re.findall(' href="https.*#突发运营信息#(.*)', text ),其中,“”表示转意符,“.”表示匹配除换行符之外的单个字符,“*”表示匹配前面子表达式0次或多次,“( )”表示只输出( )中的内容。然后,利用Python的Jieba中文分词工具对社交平台内容进行切割的同时去除停用词,比如“的”、“是”、“而且”、“但是”、“非常”等。分词后,发现这些非结构化数据包含时间、线路、突发运营事件类型、起点站、终点站和方向等特征,因此将该词语作为关键词进行特征结构化处理。由于词语之间存在相似性,引入相似度函数,利用欧几里距离代替词频的相似度[11],公式如下:
其中:相似度,选取ρ值最大的词语作为标准化后的词语,处理后的关键词数据格式如图3所示。
通过python爬虫得到2012−05−01~2019−05 −01的XX地铁突发运营信息全部数据共576条,进行数据清洗后删除重复数据和无效数据,得到有效结构化数据547条,对总有效数据进行Python词云图绘制,结果如图4所示。
图4 XX地铁突发运营信息Python词云图
图4中,信号故障、乘客闯入、5号线、1号线和10号线等词语字体较大,表示其在数据集中出现的频率较高。将突发运营事件类型和线路频率绘制成图5,结果与图4所呈现的结果一致。
在图4中,宋家庄、惠新西街南口、西直门、立水桥、四惠、大屯路东、建国门和复兴门等站点出现频率较高,观察发现这些站大概率为换乘车站,后文中将具体分析。
对地铁突发运营事件的时间与突发运营事件频率进行关联性可视化分析,分别以年、月、星期、小时为时间粒度,研究XX地铁突发运营事件的频率变化趋势,如图6所示。
由图6可知,以年为时间粒度时,2012年~2015年XX地铁突发运营事件的频率呈增加趋势,其中2015年达到最高峰,2015年后,XX地铁突发运营事件的发生频率逐年下降。其原因可能在于2015年前是地铁的大规模建设阶段,地铁网络的扩大和复杂化造成了地铁突发运营事件数量增多;随着地铁网络结构趋于稳定,修建的速度变缓,同时随着地铁运营经验的增加,突发运营事件逐渐减少;以月份为时间粒度时,数据可视化呈现出2月,8月和11月是事件发生的高峰期,4月、5月、9月和10月是低谷期;以星期为时间粒度时,XX地铁突发运营事件在工作日的发生频率明显比周末高,最高峰出现在星期一和星期五;以小时为时间粒度时,在1d 5:00—24:00的运营时间内,出现了2个峰值,即为时间段6:30—9:00和时间段17:00—19:30,基本与早、晚运营高峰小时重合。
由此可得,在以星期和小时为时间粒度的情况下,XX地铁突发运营事件的发生频率与客流的波动性基本一致,将以星期和小时作为时间粒度对具体突发运营事件类型进行具体分析。
2.2.1 以星期为时间粒度的XX地铁突发运营事件类型可视化分析
在星期的时间粒度下,将突发运营事件类型按照发生频率分为常发性突发运营事件(发生次数≥50次)、一般性突发运营事件(10次≤发生次数<50次)和偶发性突发运营事件(发生次数<10次)。由图7可以看出,大多数常发性故障和一般性故障对星期时间粒度敏感性较强,都呈现工作日比周末发生频率高的趋势,信号故障最为突出;而偶发性故障由于发生次数较少,对星期时间粒度的依赖性不强。其中,乘客因素属于人为因素,异物入侵限界、有起火危险属于随机性因素,它们与时间的关联性并不大。
图5 XX地铁突发运营事件线路、类型及其频率
图6 不同时间粒度XX地铁突发运营事件频率
(a) 常发性突发运营事件频率;(b) 一般性突发运营事件频率;(c) 偶发性突发运营事件频率
2.2.2 以小时为时间粒度的XX地铁突发运营事件类型可视化分析
在小时的时间粒度下,大多数突发运营事件的频率最大值都在通勤高峰时间段,这说明地铁乘客的增加会加重地铁线路的负担,从而增大突发运营事件发生的可能性,如图8所示。
(a) 常发性突发运营事件频率;(b) 一般性突发运营事件频率;(c) 偶发性突发运营事件频率
综上所述,突发运营事件频率与突发运营事件发生时间有一定关联。在一般情况下,地铁客流量越大,列车发车间隔时间越短,车辆、信号机、电扶梯等设施设备的使用率也就越频繁,导致地铁突发运营事件发生的机率增大。
采用聚类分析法对XX地铁突发运营信息与线路和区间的关联度进行可视化分析。在本文中,利用SPSS 软件对发生突发运营事件的18条地铁线路进行系统聚类分析。目前系统聚类的方法包括欧式距离、动态时间弯曲距离、最长公共子串、概率距离、编辑距离、Pearson系数等[17]。本文利用Person系数度量线路之间的相似性以聚类,()和()的Person系数(i,)可表示为:
其中:和代表XX地铁线路;L()代表第种类型的突发运营时间在线路上发生的次数。聚类结果如图9。
以类间间距11为分隔线,与分类线相交,如图9所示,有4个交点,故可将线路分为4类,结果如表1所示。
图9 系统聚类谱系图
表1 聚类结果
观察发现,3类和4类线路由于修建时间较晚,设计、建设和运营的水平较高,发生突发运营事件次数较少,故本文不做分析。排除偶然性因素影响,将1类里的地铁5号线、地铁6号线、地铁10号线和2类里的地铁1号线、地铁2号线、地铁13号线作为重点线路进行研究。
由图10分析得出,信号故障是一类线路的主要突发运营事件类型,主要发生在宋家庄—灯市口上行区段、立水桥—张自忠路下行区段、褡裢坡—草房上行区段以及角门西—火器营双向区段,引起信号故障的原因有信号系统失灵、系统硬件因素和人为因素等[18],在运营过程中要从设备安全保障、安全风险防控和维修设备配置3个方面入手,减少信号故障对地铁运营的冲击。道岔故障主要发生在天通苑北站、惠新西街南口站、褡裢坡站、海淀五路居站以及金台路站等,由于地铁线路中的道岔只存在于起点站、终点站和小运转车站,在运营中需严格检查这些车站的线路,减少道岔故障的发生。此外,车辆故障和屏蔽门故障在第1类线路中发生的频率较高,另外值得注意的一点是,供电设备故障在2012~ 2015年地铁的运营过程中一共发生了5次,但是在地铁6号线的金安桥站—杨庄区段发生了3次,所以应对此区段进行供电设备检查。
图10 1类线路突发运营事件图
图11 2类线路突发运营事件图
图12 地铁高峰时段突发运营事件时空可视化
与1类线路相比,由乘客因素引起的突发运营事件在2类线路上明显增多,在运营过程中应对此类突发运营事件发生次数较多的车站进行重点防控。在地铁13号线上,发生了3起有起火危险导致的列车停车,分别在西直门站,大钟寺站和回龙观站,这可能与这些车站都是高架站有关。
为了进一步将突发运营事件类型、时间、线路区间3个因素关联,本文将采用时空可视化热图的形式进行可视化分析,如图12所示。热图作为最直接的时空可视化的工具,已被广泛运用在交通网络中,使数据可视化的表达更加真实、精确,也增强了多维度研究的直观性。
用不同的颜色表示突发运营事件类型,用线条的粗细表示同一种突发运营事件在同一区段发生的发生频率,将突发运营信息体现在地铁网图上,可以更直接地看出突发运营事件在整个地铁网络上的动态分布。将所有数据整合,选取早晚高峰各2 h为例,如图12所示,一方面可看出地铁突发运营事件在XX市中心比外围区域发生的频率高,在换乘枢纽周围发生的频率比较高;另一方面,信号故障、车辆故障以及屏蔽门故障对地铁运行的影响较大,一旦发生,往往涉及的区间长度较长,而乘客因素、道岔故障以及车站设备故障等对整条线路区间的影响比较小,在突发运营事件发生后尽快采取相应措施可最大化降低事件对地铁网络稳定运行的冲击。
该热图能够识别地铁网络中突发事件发生的重点线路、重点车站、突发事件高发时间段、突发事件高发类型等,可帮助政府部门和运营企业分析和挖掘地铁突发运营事件数据的内在规律,提前定制应急预案,提高地铁系统的安全性。
1) 从2012~2019−05−01,XX地铁累计出现各类原生故障547次,且在2015年后,XX地铁各类原生故障呈减少趋势。
2) XX地铁突发运营事件的发生频率与客流的波动性基本一致,一般情况下,地铁客流量越大,列车发车间隔时间越短,车辆、信号机、电扶梯等设施设备的使用率也就越频繁,导致地铁突发运营事件发生的机率增大。
3) 信号故障是XX地铁的主要突发运营事件类型,其次是车辆故障及屏蔽门故障;1号线,2号线和13号线等2类线路发生由乘客因素导致的突发运营事件的频率比1类线路大。
4) 地铁突发运营事件在XX市中心及换乘枢纽比外围区域发生的频率高;信号故障、车辆故障以及屏蔽门故障对地铁运行的影响较大,而乘客因素、道岔故障以及车站设备故障等对整条线路区间的影响较小。
[1] 李为为, 唐祯敏. 地铁运营事故分析及其对策研究[J].中国安全科学学报, 2004(6): 108−111, 3. LI Weiwei, TANG Zhenmin. Subway operation accident analysis and countermeasure research[J]. China Safety Science Journal, 2004(6): 108−111, 3.
[2] 徐瑞华, 滕靖. 城市轨道交通网络应急指挥辅助决策支持系统的相关问题研究[J]. 城市公用事业, 2010, 24(3): 1−4. XU Ruihua, TENG Jing. Research on the emergency command and decision support system of urban rail transit network[J]. City Utilities Journal, 2010, 24(3): 1−4.
[3] 张铭, 王富章, 李平. 城市轨道交通网络化运营辅助决策与应急平台[J]. 中国铁道科学, 2012, 33(1): 113−120. ZHANG Ming, WANG Fuzhang, LI Ping. Network operation auxiliary decision-making and emergency platform for urban rail transit[J]. China Railway Science, 2012, 33(1): 113−120
[4] Bostock M, Ogievetsky V, Heer J D. Data-driven documents[J]. IEEE Transactions on Visualization & Computer Graphics, 2011, 17(12): 2301−2309.
[5] WANG Z, LU M, YUAN X, et al. Visual traffic jam analysis based on trajectory data[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2159−2168.
[6] Andrienko G, Andrienko N, Hurter C, et al. From movement tracks through events to places: Extracting and characterizing significant places from mobility data[C]// Visual Analytics Science & Technology. IEEE, 2011.
[7] Andrienko G, Andrienko N, Bak P, et al. Visual analytics of movement[M]. Springer Berlin Heidelberg, 2013.
[8] Ferreira N, Poco J, Vo H T, et al. Visual exploration of big spatio-temporal urban data: A study of New York city taxi trips[J]. IEEE Transactions on Visualization and Computer Graphics, 2013, 19(12): 2149−2158.
[9] 李得伟, 张天宇, 周玮腾, 等. 轨道交通大数据运用现状及发展趋势研究[J]. 都市快轨交通, 2016, 29(6): 1−7. LI Dewei, ZHANG Tianyu, ZHOU Weiteng, et al. Research on the application status and development trend of rail transit big data[J]. Urban Rapid Rail Transit, 2016, 29(6): 1−7.
[10] 李伟, 周峰, 朱炜, 等. 轨道交通网络客流大数据可视化研究[J]. 中国铁路, 2015(2): 94−98. LI Wei, ZHOU Feng, ZHU Wei, et al. Research on visualization of big data of passenger flow in rail transit network[J]. China Railway, 2015(2): 94−98.
[11] Itoh M, Yokoyama D, Toyoda M, et al. Visual fusion of mega-city big data: An application to traffic and tweets data analysis of Metro passengers[C]// IEEE International Conference on Big Data, 2014.
[12] PAN B, ZHENG Y, Wilkie D, et al. Crowd sensing of traffic anomalies based on human mobility and social media[C]// Proceedings of the 21st ACM Sigspatial International Conference on Advances in Geographic Information Systems. ACM, 2013.
[13] GU Y, QIAN Z, CHEN F. From twitter to detector: Real-time traffic incident detection using social media data[J]. Transportation Research Part C: Emerging Technologies, 2016, 67: 321−342.
[14] 北京地铁. 北京地铁公司推出微博便民服务[EB/OL]. https://www.bjsubway.com/news/qyxw/yyzd/2014−03−21/1584.html, 2014−03−21. Beijing Subway. Beijing metro has launched a microblog service for convenience[EB/OL]. https://www.bjsubway. com/news/qyxw/yyzd/2014−03−21/1584.html, 2014–03– 21.
[15] 刘顺程, 岳思颖. 大数据时代下基于Python的网络信息爬取技术[J]. 电子技术与软件工程, 2017(21):160. LIU Shuncheng, YUE Siying. Python based network information crawling technology in the era of big data[J]. Electronic Technology & Software Engineering, 2017(21): 160.
[16] 庄婷婷, 李冬梅, 檀稳, 等. 基于分层支持向量机的微博用户自杀倾向预测与分析[J/OL]. 哈尔滨工程大学学报:1−6[2019−07−06].http://kns.cnki.net/kcms/detail/ 23.1390.U.20190424.1038.020.html. ZHUANG Tingting, LI Dongmei, TAN Wen, et al. An hierarchical SVM model for predicting and analyzing suicidal tendency in Chinese Microblogs[J/OL]. Journal of Harbin Engineering University:1−6[2019−07−06]. http://kns.cnki.net/kcms/detail/23.1390.U.20190424.1038. 020.html.
[17] 张晚笛, 陈峰, 王子甲, 等. 基于多时间粒度的地铁出行规律相似性度量[J]. 铁道学报, 2018, 40(4): 9−17. ZHANG Wandi, CHEN Feng, WANG Zijia, et al. Similarity measurement of merto travel rules based on multi-time granularities[J]. Journal of the China Railway Society, 2018, 40(4): 9−17.
[18] 鲁勇. 关于地铁信号设备维护的思考[J]. 城市建设理论研究, 2017(30): 194. LU Yong. Thinking about the maintenance of subway signal equipment[J]. Urban Construction Theory Research, 2017(30): 194.
Visual exploration of emergency operation events in urban rail transit
QIAN Lei, ZHOU Weiteng, HAN Baoming
(School of Traffic and Transportation, Beijing Jiaotong University, Beijing 100044, China)
The management of emergency operation-events in urban rail transit is of great significance to the safe and efficient operation of subway. This paper explores unstructured data of emergency operation-information of subway through multi-granularities, multi-levels and multi-angles analysis, and studies the correlation between different types, time and segments of emergency operation-events from the aspects of single factor, time series, spatial dimension and space-time correlation, which will help to provide data basis and technical support for efficient analysis, security prevention, decision-making and planning, as well as improving system security of subway operations.
urban rail transit; emergency operation information; visual analysis; Python crawler; unstructured data
U231
A
1672 − 7029(2020)04 − 1025 − 11
10.19713/j.cnki.43−1423/u.T20190763
2019−08−31
科技部重点研发计划资助项目(2018YFB1201402);北京交通大学基本科研业务费资助项目(2019JBM039);交控科技设计创新和学科发展基金资助项目(9907006511)
周玮腾(1988−),男,湖南郴州人,讲师,博士,从事轨道交通运输组织研究;E−mail:zwt_bjtu@126.com
(编辑 蒋学东)