刘 敏,马小宁,戚小玉,刘彦军,武 威
(中国铁道科学研究院集团有限公司 铁路大数据研究与应用创新中心,北京 100081)
随着云计算、物联网技术的发展,一个大规模生产、分享和利用数据的时代已经来临,大数据广泛服务于金融、医疗、商务、政务、电信、零售业等行业,并发挥着越来越重要的作用[1-2]。大数据时代的来临为大规模数据的综合处理带来了机遇和挑战,同时也为大规模、高维度、非结构化数据的可视化分析技术带来了新的契机[3-4]。根据数据的时间信息、空间信息等特性,利用图表、数据流、地图、网络、知识图谱、思维导图等合适的可视化表现形式,加之色彩、角度、位置、长度、方向、形状等维度的渲染,将复杂、晦涩的数据直观地展现出来,以方便用户高效理解数据,挖掘数据潜在的规律和价值。
数据可视化技术广泛应用于医疗服务、食品安全、城市交通、气象预警、人口普查、股票、金融等各行各业[5-7]。中国铁路经过多年信息化建设,累积了丰富的数据资源,数据体量大、类型庞杂、变化速度快,海量的结构化数据和非结构化数据给数据治理、存储、分析等带来挑战。通过铁路数据服务平台建设,构建了具有多源异构数据集成、多类型数据存储、全领域数据共享、智能分析及可视化展示功能的一站式平台。介于铁路数据大、杂、广等特点及数据逻辑的复杂程度,单靠传统的图表方式进行分析展示是远远不够的,需要借助数据治理技术和转换、分析、挖掘等一系列复杂数据加工过程,辅助进行直观有效的可视化展示。因此,对铁路数据服务平台的数据进行可视化呈现具有十分重要的意义。
管理驾驶舱用可视化的方式直观地显示各项指标,设计下钻查询方式,实现对各类指标的精细化管理和深层次分析,以形象化、直观化、具体化的数据展现形式反映企业核心业务的运行状态,是一个为企业或部门领导层提供一站式决策支持的系统。本文设计实现的铁路数据服务平台综合管理驾驶舱是集数据服务平台构建理念、资产普查、资产概览、共享服务、分析应用、运维管理于一体的可视化全景视图,为领导决策和定向提升平台服务水平提供依据。
铁路数据服务平台提供面向全数据类型的数据接入、存储及计算,对铁路各业务领域数据资源进行集成整合,改变了各系统间信息孤岛的现象,形成数据资源的全景视图,实现数据资源的精细化管理,提供数据综合分析能力。平台支撑铁路各领域大数据分析应用的开展,盘活数据资产,深挖数据价值,为提升铁路生产经营能力、客户服务能力和开放共享能力提供支撑[8]。
铁路数据服务平台汇集铁路运输生产过程中的海量数据,形成数据资产目录,提供统一的数据服务,包括基础数据管理、数据集成平台、数据共享平台、大数据存储与分析平台4个部分。
数据集成、共享、存储与分析平台3者之间为紧耦合关系。数据集成平台从既有业务系统抽取数据后提供给数据共享平台,数据共享平台将数据汇总分类后提供给大数据存储与分析平台进行挖掘、分析及各类应用,最终展现给用户。数据集成、共享、存储与分析平台与基础数据管理之间是松耦合关系。基础数据管理为以上3种服务提供统一的主数据、地理信息及元数据服务。
本文设计开发的铁路数据服务平台综合管理驾驶舱主要实现上述4个部分数据流向的动态监控以及平台与用户之间的多流程、多维度的可视化交互。
综合管理驾驶舱将数据固有的高维、复杂、海量等性质通过交互可视化手段,以高效、易于理解的方式把数据的多维属性全面直观地展示出来[9-10],降低了数据挖掘、分析、展示的难度,同时也加深了用户对数据的理解,可用于指导铁路数据服务平台的实际工作。综合管理驾驶舱,采用总—分结构,即一个主视图和多个分视图的可视化形式。
本文基于铁路数据服务平台设计综合管理驾驶舱模型,面向铁路大数据的汇集和存储,整合数据治理、共享、挖掘与分析、运维等技术,实现对铁路大数据的一体化、综合性的可视化管理。同时,对基础设施环境安全提供统一管理,加强平台数据的安全性防护。综合运用独特的布局、色彩、图表、动画效果,在真实还原平台构建的全流程和功能的前提下,以数据流的形式,可视化展示平台设计理念以及平台的典型功能特征。综合管理驾驶舱由4部分构成,总体框架如图1所示。
图1 综合管理驾驶舱总体框架图
综合管理驾驶舱的主视图综合运用可视化技术展示了平台提供服务的能力,从既有的各业务系统采集数据,为各系统提供数据分析、共享服务,同时又为大数据应用系统提供支撑,包含资产普查、资产概览、共享服务、分析应用、运维管理等模块,驾驶舱主视图如图2所示。
2.2.1 资产普查
资产普查即对铁路各行业系统进行数据资产调研,统计数据的体量和类型,基于数据属性种类多、结构复杂、数据量庞大等特点,从微观和宏观2个层面对数据进行归类和量化,从不同维度,不同时空深入了解数据。从数据类型来看,掌握结构化数据中表的个数、字段数、数据存量以及非结构化数据中音视频、文档、图片等数据类型个数和存量;从数据业务场景来看,系统对业务领域、主管部门、部署层级、部署网络等关键业务指标进行交叉分析;从数据体量来看,系统掌握不同结构类型和业务场景的数据信息的大小,方便制定数据存取方式和传输策略。基于上述信息,系统通过可视化图表,生动形象的反映资产普查情况和各类数据之间潜在的关联关系,有效的梳理铁路数据现状,实现铁路数据服务平台数据汇集目标。资产普查展示页面如图3所示。
图2 数据服务平台综合管理驾驶舱–主视图
图3 数据服务平台综合管理驾驶舱–资产普查
2.2.2 资产概览
针对不同数据源、不同数据类型研发相应的数据传输通道,对数据进行实时或离线采集,在采集过程中进行数据清洗、过滤和筛选操作,实现数据接入的可配置、可管理和易操作性,进而形成数据资产,同时对资产进行分类,形成数据资产目录。系统对资产分类及主要量化指标进行可视化展示,直观呈现各类型数据占比和各维度数据总量变化趋势,将静态的死数据变为活信息,用以构建铁路企业级的数据资产体系,使数据之间的层次与关联一目了然。资产概览展示页面如图4所示。
图4 数据服务平台综合管理驾驶舱–资产概览
2.2.3 共享服务
铁路数据服务平台拥有丰富的数据资产,可针对不同用户生成不同的数据共享策略,提供不同的接口服务,在保证数据安全和隐私的前提下,从数据的共享情况、用户使用情况、接口调用情况及系统应用情况等多维度视角出发,运用可视化技术和手段,展示平台数据共享情况,直观的看到共享数据的规律和特征,针对性提升数据共享服务的速度和效率,提高平台的数据管理能力和数据共享能力。共享服务展示页面如图5所示。
图5 数据服务平台综合管理驾驶舱–共享服务
2.2.4 分析应用
铁路数据服务平台作为一站式数据服务平台,拥有海量的数据资源和数据服务能力,需要为不同业务领域的不同应用场景提供数据服务。驾驶舱集成多领域的多类型场景,构建包括统计分析、多维分析、挖掘算法库、数据挖掘工具等模块的数据分析模型,对海量数据进行分析和预测,形成有效的数据分析案例。
(1)通过分析货运计量安全监测系统中的轨道衡相关数据,分析其左右偏载、前后偏重与时间、速度、总重等变量的关联关系,实现超偏载情况的预警和超偏载运行规律的趋势预测;
(2)通过车、机、工、电、辆等各专业设备、人员的安全相关数据,构建铁路安全大数据应用,实现针对性设备维护、超前性设备预警和精准性人员管控;
(3)通过电务专业各类检测监测、故障预警等数据,实现设备综合监测、全寿命周期管理、故障智能诊断、运维综合分析、电务作业卡控、应急调度指挥、设备故障预测与健康管理、车地闭环分析等基于数据的综合应用功能。
驾驶舱基于海量数据服务于不同业务场景,构建多元数据分析模型,利用可视化综合大屏的形式展示各案例分析应用成果,实时追踪数据流向,体现数据价值。分析应用展示页面如图6所示。
图6 数据服务平台综合管理驾驶舱–分析应用
2.2.5 运维管理
驾驶舱采用三维可视化技术,对集群的机架和物理服务器进行位置信息和状态信息的全方位空间展示,实现故障快速定位和诊断,对集群安全态势进行实时预警;研究影响平台稳定运行的各项参数和配置,对影响集群运行的关键指标进行实时监控;关注平台用户使用情况,实时监控PV、UV量值变化,对现有租户和用户数进行多维度的统计分析,保证数据的准确性和时效性,以便及时分析客户流失率和增长率,增强用户体验。运维管理展示页面如图7所示。
可视化,即用区别于文字、表格等形式的更直观、更富冲击性的方式展示数据背后的规律和价值[11]。本文在平台运行环境下,运用Web可视化技术,基于vue.js的前端开发框架、Hadoop和MapReduce的大数据处理方法,利用可视化图形库,结合echarts、highcharts、dataV等可视化组件,研发铁路大数据可视化交互产品。其核心是基于平台整体框架和构建原则,综合运用大数据分析技术、计算机图形学、图像和视频处理技术、地理信息、人机交互技术等,将数据服务平台的整体架构及实施流程和后台运营手段用直观可识别的形式展示出来,便于用户和管理者快速洞悉平台海量数据和应用背后有价值的信息和知识,从而为平台的管理和运维等工作提供辅助决策支持。
图7 数据服务平台综合管理驾驶舱–运维管理
平台汇集铁路各专业、各业务部门的海量数据,实现了数据融合与信息共享,根据不同的数据类型制定不同的存取策略。平台数据从数据结构而言,可分为结构化数据、半结构化数据和非结构化数据。
(1)从传统关系型数据库、ftp文件传输、HDFS分布式文件系统、Kafka消息队列、ES等多种数据源中采集数据,根据业务需求确定数据采集的周期和方式,建立实时、离线或定时数据采集任务。
(2)数据采集可使用一个或多个目标源,选择HDFS为源数据仓库,把数据清洗、转换后存储至Hive、Impala、HBase等数据库或者ES搜索服务器中,为方便快速查询,根据业务需求合理制定Hive表或者Impala表的分区策略、优化HBase的Rowkey设计,以及ES的分区和索引设计。
(3)在数据可视化显示时,采用Restful风格的接口形式,客户端通过Ajax异步请求数据,用双方约定的方式定位数据资源,如采用URL方式,在Http的请求下,语句格式形如GET http://…/rdsp/screen/ajaxRequest/newLeftClassifyPie,获得前后端约定好的数据类型的数据。
驾驶舱前后端数据的简明交互流程如图8所示。
图8 驾驶舱数据交互示意图
各类数据用约定好的数据格式进行数据交换,以JSON为例,它是一种语法简单、轻量级的数据交换格式,有很强的兼容性,支持C、C++、PHP、Python等各种语言,便于服务端解析。JSON格式如下:
(4)服务端通过解析Http请求的内容,将获取到的JSON格式的数据在Web动态图表中进行显示,并同步刷新。实现在不刷新整个页面的情况下,采用JSON格式的数据输出方式,不断从服务器端获取数据,同步分模块更新,提升数据传输效率,实现数据近似实时可视化展现。
可视化技术是大数据分析的重要方法,也是大数据时代能够高效传递信息的媒介。本文设计并实现了铁路数据服务平台的可视化综合管理驾驶舱,对铁路数据服务平台从数据普查、采集、治理、存储、共享、分析、应用的全流程进行了展示。针对铁路行业大数据,数据量大、类型多、维度高、来源广、各领域交叉复杂等特点,利用可视化技术实现了平台多种数据处理能力和用户对信息感知能力的深度耦合,为及时掌握平台的数据资源和运维情况提供方便、快捷、高效的一体化工具,实现铁路数据服务平台多个应用与功能的综合可视化交互展现。