李仕旺,潘 跃,吕晓艳
(中国铁道科学研究院 电子计算技术研究所,北京 100081)
数据可视化技术研究及其在铁路中的应用
李仕旺,潘 跃,吕晓艳
(中国铁道科学研究院 电子计算技术研究所,北京 100081)
在大数据时代背景下,数据的复杂性越来越高,需要数据可视化技术将不可见现象转变为可见的图形符号,因此数据可视化的角色越来越重要。本文从数据可视化技术的概念和技术特点入手,对数据可视化技术进行研究,将其成功应用于中国铁路客票发售与预订系统(以下简称铁路客票系统)的数据分析与展现中,并对未来数据可视化技术在相关领域的应用进行了展望和探讨,进一步证实数据可视化应用技术是呈现和解释大规模数据的关键核心和发展方向。
大数据;数据可视化;铁路客票系统;铁路数据
数据可视化技术的起源可以追溯到20世纪中期,即计算机图形学时代和数据可视化发展的萌芽时期,人们就开始研究如何在计算机中表示图形;而到了20世纪80年代后期,科学计算的可视化才被提出并逐渐发展起来。科学计算可视化(Visualization in Scientific Computing)的诞生为数据可视化奠定重要基础,数据可视化(Data Visualization)是信息图形、信息可视化、科学可视化和统计图形的结合体,实现了科学可视化与信息可视化领域的统一。数据可视化所研究的内容是数据的视觉表现形式,也是运用计算机图形学和图像处理等技术,通过对数据集的可视化设计,将数据转换为图形或图像展现出来并进行交互处理的技术。通过数据可视化可以清晰有效地传达和沟通信息,从数据中发掘隐含的规律和趋势,为辅助决策提供坚实的基础。
数据可视化是对大型数据集的可视化,随着计算机技术的快速发展,计算机图形处理能力越来越强,使得人们在表现数据的时候不再局限于通过观察关系型数据来分析数据信息。数据可视化技术可以借助计算机的强大处理能力、计算机图形学算法和可视化算法将大量的数据集转化为静态或者动态图像呈现给人们并具有一定的人机交互,是分析、挖掘数据,寻找数据间的关系或者数据规律趋势的最佳工具。
可视化是数据的图形化表示形式,数据可视化技术能够将大量复杂的信息通过图表的方式使之一目了然地解释出来,并有效地突出核心数据,方便用户快速洞察问题所在。数据可视化技术主要有以下3大特点:
(1)与用户的交互性强。一般情况下用户都是信息传播中的接受者,而强交互性特点将改变这一局面,在管理和开发数据上用户可以很方便地以交互式的操作进行。
(2)数据显示的多维性。针对多维数据进行可视化分析,将每一维数据的值进行分类、排序、组合和显示,从而看到表示对象或事件的数据的多个属性或变量。
(3)最直观的可视性特点。数据的显示方式有多种,可以用图像、曲线、二维图形、三维体和动画来等显示,并可对其模式和相互关系进行可视化分析。
数据可视化技术的交互性、多维性、可视性特性为数据可视化技术的实现奠定了理论基础,数据可视化技术通过对数据的预处理、映射、绘制和显示4步来实现,从而能够通过视觉来理解多维数据上的复杂模式。在进行数据可视化的过程中使用到了描述数据可视化相应的关键技术,主要分为以下3点:
(1)数据预处理技术。原始数据大多是来自平面文件或者是关系型数据库中的数据,因此需要对它们进行数据格式化和标准化,通过数据的变换然后对其进行压缩、解压缩处理,使数据更易于存储和读取。针对不同的可视化方法和内容,为了满足可视化要求,需要对原始数据做进一步的变换处理。处理方法包括数据规范化处理、滤波处理、平滑处理、网格重新划分、坐标变换、几何变换、线性变换、分割与边缘检测、特征检测增强、提取查色表操纵和特征映射等。
(2)数据映射技术。映射就是将数据按几何画法或者几何投影的方式表示出来,它完成了数据的建模,是可视化技术的关键。在可视化处理的数据类型上,仅在铁路客票数据上也是千差万别,需要多种映射技术。应用图形中可识别的变量是验证维数的基准;为了匹配数据的范围,需要使用缩放比例和偏移量等相关技术来处理;使用衍生值(残差、logs)法是强调变化突出主题的利器;通过随机抖动区分重叠,通过投影技术来取得统计量;对于高维信息,其中的隐藏关系较多,则需要使用多视图来进行处理。
(3)绘制和显示技术。可视化数据显示就是将集合数据转换成图像,并安装用户的指定格式进行输出,最终实现人机交互。使用者为了更好的理解数据含义,对呈现数据内容方式上必须是简洁易懂、强调突出、省时高效。如何高效地提供数据可视化服务是数据可视化技术的终极目标,通过可视化技术来开发相应的可视化工具或平台。在传统可视化显示技术上有柱形图、折线图、饼图、面积图、股价图和雷达图等,目前流行的还有地图数据可视化,三维立体图、和弦图、单词云图和人际关系图等。在可视化技术上有基于投影的技术、面向像素的技术、基于图标的技术、基于层次和图形的技术、3D技术、动态和交互技术等。
数据可视化技术的意义在于如何分析所获得的大量、多维和复杂的数据,提供直觉的、可交互的可视化环境,使用者可以灵敏地获得相关信息,由此可见发展数据可视化技术的意义十分重大。主要体现在以下几点:
(1)在每天的生产系统上,数据量是非常庞大的,数据可视化技术能够加快数据的处理速度,使数据得到有效利用。
(2)实现人机交互,可视化技术改变了文字或数字等信息的呈现方式,使用者能够更容易地观察到传统方法难以发现的现象和规律。
(3)在科学计算上更方便地对计算过程实现引导和控制,数据可视化为计算机辅助提供技术手段,为计算机辅助协同设计打下了基础。
(4)可视化技术简化了人工处理数据制作图表的流程,用户可以方便地以交互的方式管理和开发数据。
(5)可视化技术将数据的多个属性或变量进行处理,并可对其模式和相互关系进行可视化分析,为管理者提供辅助决策的基础。
目前铁路客票系统中的各业务基础数据是分散建立、独立运行的,但彼此之间都存在着一定的相互关系。在进行铁路客运业务和售票组织策略决策的时候,往往需要对客票数据进行统计分析,但由于业务数据相对分散,因此要从客票数据中提取有用的数据一般都是通过数据库查询语言、大数据处理等手段来获取,效率相对较低。随着铁路市场化改革的推进,铁路客票数据量更加庞大、维度更加复杂,为了提高使用效率,需要对客票数据进行分析处理,将不同业务的数据区分处理,并通过数据可视化技术对客票数据进行处理和展现。铁路客票数据可视化研究能够让铁路客票数据更加直观,为客运业务的辅助决策提供参考依据。通过研究可视化技术,进行铁路客票数据的可视化,使用可视化技术抽取客票数据,将客票数据赋予表现力,使客运业务人员能够直观感受到数据,并能轻易发现问题。
3.1 时间趋势可视化
在铁路客票系统中,时间序列数据无处不在。如每天售票情况、旅客发送情况等。在时间数据中,用户最普遍想要得到的是从数据中发现趋势,是在上升还是在下降,是否存在周期性循环规律。要从中找出这些变化,就需要超越单个数据点,纵观全局。例如,图1是铁路客票系统手机渠道一段时间内的售出折线图,从图表上看,手机购票的效果是比较积极的,总体呈上升趋势;但是如果只观察当前图表的一部分数据,也会有一定的周期性规律,结论也会因此而不一样。
图1 铁路客票手机渠道售出趋势图
尽管我们都希望了解全局情况,但是关注细节同样也很有价值,数据值的异常点、不规则区段、剧烈上升/下降的数据点(排除异常数据),这些地方也是应该给予重点关注的地方;高屋建瓴,了解整个事件的背景,对甄别细节有帮助作用。
3.2 比例数据可视化
关于比例最受关注的是数据的总体分布,通过比例来呈现各部分和与其他部分的相对关系。饼图是较为传统的图表之一,它作为一个整体,把它切成楔形,每一个部分代表一个整体,需要注意的是饼图需要有良好的数据组织基础,并且尽量不要将一个饼图分成太多的部分。饼图的设计应该是直观、清晰的,而且能够让注意力集中在要表现的重点,在实现上有2种方式:(1)将最大的2部分分别按顺时针和逆时针旋转,其他部分在下面;(2)顺时针从小到大排序,图2就是铁路客票系统各渠道售票比例图的2种显示方式。
图2 铁路客票系统各渠道售出比例饼图
3.3 单词云数据可视化
单词云(wordle)是一种数据可视化的形式,在数据处理上需要进行分类处理、归并同义格式转换等。单词云使用单词进行绘图,每个单词具有一定的权值,单词的大小由这些权值来决定;然后再对单词在指定的展现区域上进行空间随机排序从而构成单词云。图3是某时段用户乘车的热门区间,文字字体越大说明该区间越热门,需求越旺盛。读者能够由此快速找出重点区段,例如北京-北戴河、北京西-成都等,效果一目了然。
3.4 客票席位数据可视化
在客票系统业务上,描述具体席位的特征、状态等信息的数据构成席位数据,席位数据的汇总信息构成运能,运能信息是客票系统进行客运统计的基础指标信息。对席位信息的可视化实现是进行客运营销分析的有力武器,通过可视化技术实现对列车席位状态的描述,列车的开行情况描述(客座率、收入率等)。以旅客列车客座率为例,客座率是列车运营效率的指标,采用可视化技术表现客座率可以直观地了解铁路运力和线路资源使用情况,图4则是铁路客票系统列车客座率的可视化效果。
图4 铁路客票系统列车客座率仪表盘
图4的图表类型是仪表盘,仪表盘可以反映各指标的完成情况,同时也可以作为监控系统各部分使用情况的手段,例如实时查询操作系统后台各部分的CPU使用率、内存利用率和日志空间状态等。
3.5 售票数据可视化
客票售票数据记为存根,它是铁路客票系统每个席位售出的原始凭证,进行退票、结帐、财务清算、运输统计和营销分析的基本依据。通过可视化技术对售票情况、旅客发送量情况等进行分析,对了解铁路客票系统的运行情况具有重大意义,图5是铁路客票系统旅客发送量可视化分析图。
图5 铁路客票系统旅客发送量可视化分析图
图5是基于地图的热力图,地图可视化是将地理数据转换成可视的形态,显示突出数据特征。对于热力图来说,使用的颜色不需要太花,从而给数据增加不可承受之重,热力图中采用统一色系是较好的设计方案。
在辅助决策方面,通过可视化分析现有铁路的运营数据,挖掘客流与地域、季节、节日、天气等因素的关系,可以清晰地分析铁路的布局与市场潜在用户,充分发挥自身的优势,总结出具有可行性的辅助决策方案,促使铁路的整体建设更加完善。在铁路建设背后,高新技术是基础,对目标受众的精准数据分析(其中包括旅客成份、出行习惯、出行规律、年龄分布等)具有很大的应用空间。通过可视数据挖掘方法,对铁路数据进行探索性分析,并将结果用可视化方法予以呈现,进而形成铁路建设方面的指导意见。
在运营方面,可以为高效调度和安全保障提供服务。列车调度需要精准预测未来某一段时间的客流量,为列车的调度提供合适的参考,在这一方面可视化数据分析体现出了其他工具所无法比拟的优势。铁路作为一种特殊的行业,需要一些精准的信息,线路上的很多传感器产生的数据并不仅是让铁路相关人员了解目前的状态,还可以利用可视化技术把这些数据变活,有的放矢地指导相关的工作人员仔细检查列车和线路状态,及早规避可能出现的问题,为铁路的正常运营提供监控和预警。
[1] 韩丽娜. 数据可视化技术及其应用展望[J]. 煤矿现代化,2005(6):39-40.
[2] 张 浩,郭 灿. 数据可视化技术应用趋势与分类研究[J].软件导刊,2012(5):169-172.
[3] 王媛媛,丁 毅,孙媛媛, 等. 数据可视化技术的实现方法研究[J]. 现代电子技术,2007(4):71-74.
[4] 任永功,于 戈. 数据可视化技术的研究与进展[J]. 现代电子技术,2004(21):92-96.
[5] Julie Steele,Noah lliinsky. 数据可视化之美[M]. 北京:机械工业出版社,2011.
[6] 陈 为,长 嵩,鲁爱东. 数据可视化的基本原理与方法[M].北京:科学出版社,2013.
责任编辑 方 圆
Data visualization technology and its application in railway
LI Shiwang, PAN Yue, LV Xiaoyan
( Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )
In the era of big data, the data was more and more complicated, data visualization technology was required in order to make the invisible phenomena into the visible graphic symbol, and data visualization played an increasingly important role. This paper researched on the data visualization technology from its concept and technical characteristics. The visualization technology was successfully applied to the China Railway Ticketing and Reservation System. The future applications of railway data with data visualization technology were discussed. Data visualization technology was the key of presentation and interpretation large-scale data.
big data; data visualization; Railway Ticketing and Reservation System; railway data
U293.22∶TP39
A
1005-8451(2015)10-0023-04
2015-03-04
李仕旺,研究实习员;潘 跃,助理研究员。