张晓天, 张平静
(中远海运科技股份有限公司, 上海 200135)
航运企业动态数据可视化方法研究
张晓天, 张平静
(中远海运科技股份有限公司, 上海 200135)
大数据时代的来临使得数据作为一种无形的资产受到越来越多企业的重视。当前航运企业正处于十分激烈的市场竞争环境中,大数据已成为航运企业洞悉市场规律、赢得生存和发展先机的新武器。通过对R语言动态数据可视化技术进行分析,结合航运企业数据管理和决策支持的现状,构建一套表现具备时间和空间双重维度数据的可视化方法,可帮助企业更直观地发现数据中隐藏的规律。
R语言;数据可视化;数据地图
“大数据”在当今的商业社会中扮演着越来越重要的角色,贯穿于企业运营的整个生命周期,关乎企业的生存和发展,受到越来越多企业的重视。如何依托当前先进的大数据技术挖掘出海量数据背后蕴含的价值,是每个现代企业都必须面对和思考的问题。
1.1航运业大数据发展趋势分析
大数据时代来临是当今社会一股不可逆转的潮流,越来越多的企业开始关注数据资产的价值。现代航运企业一般经历了多年的企业信息化建设,具备比较完善的数据采集和管理条件,在多年的运营过程中收集了大量的数据。这些数据具有维度多、频度密、带有时间和空间等属性,能真实地反映企业经营的健康状况和市场规律,使得航运企业具备大数据分析的基础。此外,企业如何在坐拥庞大数据资产的同时,建立一种有效利用数据产生附加价值的手段,是在大数据背景下每个企业都在思考的问题。借助大数据技术,通过全面细致地分析生产数据,航运企业可实现航线和船舶的精准运营,掌握全球不同地区的运力部署情况,明确各港口的货物运输需求量,进而优化航线配置、提升准班率。同时,借助大数据分析技术可优化班轮的航线速度,节约船舶的燃油消耗,降低企业运营成本[1]。此外,数据可视化技术的研究近年来愈发火热,借助先进的数据可视化技术能更加直观地揭示数据中隐含的商业规律和潜在商业价值,能帮助企业推进商业模式的创新,这对同质化竞争激烈的航运业而言十分重要。
1.2航运企业数据利用问题
Z集装箱航运企业成立于1997年,是全球领先的集装箱班轮运输企业,其信息化建设至今,已在公司的日常运营过程中积累大量数据。一份海运合同的履行,从制订班期、客户订舱开始,到客户提货、结清费用,整个过程步骤众多,涉及到的数据主要有航次信息、客户资料、船舶信息、集装箱动态、提单数据、合同信息和费用信息等。这些数据不仅在企业内部各系统之间流转,还通过主流EDI格式与海关、码头及收发货人等外部单位交互。企业为存储和管理这些运营数据,必须投入一定的资源,而数据价值却得不到充分挖掘,企业在数据管理中的投入和产出严重不成比例,使得企业管理成本增加。
造成数据价值难以产生的一个重要原因是没有有效的数据分析和展现方式。目前Z航运企业内部数据分析和展现方式主要有以下2种。
1.2.1 使用Microsoft Excel
目前Z航运企业内部数据管理仍有一部分需借助Microsoft Excel来完成,有些是人工制作的Excel表格,有些是借助业务系统导出的表格(见图1)。Excel表格的优势在于方便、易用和硬件环境要求低,而其不足之处在于需投入一定的人力进行表格制作,数据的展现方式有限(如无法准确展现具有时空维度的数据),同时无法满足复杂的数据建模要求。
1.2.2 业务系统导出固定报表
多年的信息化建设使得Z航运企业建立有十分完备的业务系统,这些业务系统是企业业务数据的主要入口,在辅助业务正常运行的同时,承担着对业务数据进行初级分析和展示的任务。在系统的建设过程中,企业管理层不断地对业务系统提出各种数据上报的要求,因此业务系统内逐步开发出满足各种统计上报要求的报表。但是,受制于业务系统的架构设计,这些上报报表格式固定,仅能完成对数据的汇总、筛选和排序等初级分析工作,没有更加直观、生动的展现形式,因此也不能有效挖掘数据价值。
综上所述,当前这种数据管理现状造成企业投入的资金和拥有的数据资产的双重浪费,选择一套简单高效的大数据分析方法是航运企业的当务之急。R语言在开发之初就被用来进行数据分析,具有简单的语法、丰富的函数和扩展包,支持复杂的数据模型及丰富的可视化技术,可应用到航运企业的大数据分析工作中。
2.1R语言与可视化技术
对于人类而言,视觉带来的感受往往更加直接,人们在分析大量数据时更倾向于依托视觉的方式。因此,创造出很多数据可视化工具,诸如Google Spreadsheets,IBM Many Eyes,Tableau Software等。然而,这些工具主要关注快速、方便和美观等特点,适合小数据量及新人使用,当数据量级增大,需做可定制化的深入分析并输出印刷品质的图像时,这些工具可能无法满足要求。因此,需借助可编程语言的可视化技术,例如R语言。
R语言从诞生之初就是为数据分析设计的,不仅是一门程序化语言,更是一整套数据分析的解决方案。R语言最大的特点是免费、开源,且使用非常灵活。此外,R语言包含十分丰富的扩展包,从数据模型、分析工具,到绘图工具、数据接口等,几乎全部包含,方便统计人员应对各种统计场景。以ggplot2为代表的一系列绘图包为R语言数据可视化提供了强大的支持。
ggplot2绘图包由Hadley Wickham开发,经过多年的演化完善逐渐成为R语言数据可视化技术的主流选择。ggplot2具有美观优雅的图形外观和极其强大的语法特性,采用图层和映射的设计理念,允许用户分层构建和修改图形,将数据属性映射到视觉属性,这些特性使得ggplot2能以非常简洁的语法来构建复杂的图形,非常精细地控制可视化的展现方式,同时保持很高的绘图品质[2]。
2.2数据地图技术
地图作为分析空间数据的一种传统方法,在当今的大数据时代依然值得关注。对于包含地理信息的空间数据,将其与地图上的经纬度坐标相结合,能在地图上直观地展现数据的空间分布,便于人们通过眼睛直接发现数据及其分布中蕴含的规律。要绘制数据地图,需依托详细的地理测绘信息,特别是地理坐标信息。最常用的一种方法是利用第三方提供的地图API,例如Google和Microsoft地图。然而,这种地图的定制化程度很低,其外观与原生的Google和Microsoft地图基本没有区别,无法满足特定统计场景下的主题要求。
为应对企业环境下多样性的数据地图需求,很多第三方机构或个人开发灵活而详细的矢量地理信息库,为数据地图开发者提供更加灵活的解决方案。这其中最重要、应用最广泛的就是Shapefile格式文件。Shapefile是美国环境系统研究所开发的一种空间数据格式,目前已成为地理信息软件领域的一种开放标准。Shapefile由一系列包含位置信息的矢量几何图形组成,由于是矢量图形,因此任意缩放都不会影响输出图像的质量。
Natural Earth是一个由志愿者开发的公共区域地图数据集,已得到北美制图信息协会的支持,该数据集提供1∶10 000 000,1∶50 000 000和1∶110 000 000等3种比例的Shapefile格式矢量地图文件。作为一个定制化地图开发便捷资源的提供方,Natural Earth不像用于科学研究和军事用途的地图数据,其从设计之初就是为满足地图绘制者从事与生产作业相关的制图工作,且这种工作可使用多种多样的软件应用来实现。Natural Earth地图数据库包含文化矢量数据主题、物理矢量数据主题和光栅数据主题等三大数据主题(见图2~图4),其中:文化矢量数据主题包含国家、区域、省份、居民区、城市区域、公园和保护区、太平洋岛国及水域边界等内容;物理矢量数据主题主题包含海岸线、陆地、海洋、群岛、珊瑚礁、河流湖泊、冰川、南极冰架及经纬度等内容;光栅数据主题主题则包含卫星测绘得到的大陆、洋底的混合地形数据。由于Natural Earth地图数据库包含的数据种类繁多、内容详细,可满足大部分定制化地图开发的要求。
3.1收集和处理数据
R语言拥有丰富的扩展包,允许使用者以多种方式收集数据。R语言支持从键盘直接输入数据,使用者也可从文本文件、Microsoft Excel和Access、多种统计软件、特殊格式的文件及关系型数据库中导入数据[3]。
对于企业级应用,特别是在已存在大型数据库的情况下,通过设置数据库驱动来允许R语言访问外部数据库是一种常用且高效的手段,同时可发挥SQL语言和R语言各自的优势。R语言的优势在于对数据进行分析,而SQL语言的优势在于数据管理。在检索原始数据时,可使用SQL语言对数据进行清洗,例如筛选、汇总、排序及空值转换等操作,然后将整理好的数据导入到R语言中进行分析。要在R语言中使用SQL语言访问外部数据库,首先需加载RODBC包并设置数据库连接。在编写SQL语言脚本进行数据抽取之前,要明确从业务系统数据库抽取数据的维度,排除不必要的信息,需抽取的业务信息主要有预计离港时间、箱量(TEU)、目的港名称和目的港所属国家代码,其中箱量按月份汇总,并进行标准化处理,按箱型转换为统一的计量单位TEU,以方便统计计算。在从业务系统数据库抽取数据时,还进行一些基本的数据清洗工作,例如过滤目的港名称为空的数据等很可能是错误数据或非出口业务数据,然后将数据按预计离港时间排序(见图6)。
3.2导入Shapefile地理信息
为展现出口箱量在全球的分布情况,选择Natural Earth提供的陆地多边形矢量数据集(ne_10m_land.shp),该数据集以标准的Shapefile格式存储大陆及主要岛屿的海岸线数据,不包含行政区划分界,以避免数据地图上图形过于复杂,导致观察者难以获取地图传递的信息(见图7)。此外,为在地图背景上绘制相关目的港的位置,还需导入港口经纬度数据,这里选择Natural Earth提供的全球主要居民区坐标数据集(ne_10m_populated_places.shp),而非港口坐标数据集,主要是因为并非所有业务的目的港都是主要港口,可能涉及内陆点,因此居民区坐标数据要比全球主要港口数据更加全面(见图8)。通过加载maptools扩展包,R语言就可读取该数据集对应的Shapefile格式文件,使用readShapePoly命令读取陆地多边形矢量数据集,使用readShapePoints命令读取居民区坐标数据集,文件读取后还需转换为数据框才可用于绘制矢量地图。居民区坐标数据集导入之后,由于一些居民区会有多个距离不远的坐标,因此需去掉多余坐标,只需保留1个即可,以避免在整合箱量数据和坐标数据时出现重复。
地理信息数据导入后,还需将集装箱出口业务数据和地理信息数据整合到一起,匹配的依据是地名和国家代码,例如Alexandria,Queenstown,Richmond等地名在不同国家均存在,因此用符合ISO 3166标准的2位国家代码加以区分。此外,在匹配时还需去掉地名中的空格,并统一为大写字符,以保证匹配正确。
整合之后的数据混合在一个数据集中,为针对不同目的港的箱量数据进行数据可视化绘制,需对出口箱量数据按目的港名称进行分组,并分解为以目的港名称命名的多个子数据集。分组之后,并非所有港口在整个统计时间范围内都有箱量数据,有些港口可能因为货源或其他外部因素,导致部分月份缺少所需数据。因此,需将缺少的字段补全,统计月份按照时间顺序补全,箱量赋值为0,港口名称、国家代码和经纬度与其他记录相同。
3.3绘制动态数据地图
3.3.1 绘制地图背景
使用已导入的陆地多边形矢量数据集绘制世界地图背景,为体现一种简约、素雅的可视化风格,地图背景整体呈浅色,海洋部分使用白色填充,陆地部分使用灰色填充,同时设置陆地部分的透明度为60%。使用主题设置函数theme()去掉背景网格线、坐标轴及坐标轴标题及图例,并调节图形显示高度以便隐藏南北极,得到的世界地图背景(见图9)。
3.3.2 绘制各目的港箱量分布
ggplot2扩展包最强大的地方在于可单独控制、添加和删除组件,因此将每个目的港数据集作为一个绘图组件单独绘制,方便对每个港口展现的美学特征进行调整。将数据的展现图形设置为红色圆环,圆环的大小反映数据的大小。由于不同港口的箱量数据差异很大,直接显示会导致有些港口的图形过大,覆盖其他港口的图形;此外,有些港口的图形只是一个微小的点,很难观察其演变趋势,需对箱量数据进行对数转换,对数转换不会消除数据的趋势和相关关系,而是压缩数据的尺度,使数据变得更加平稳,转换前提是数据中不包含负数。
3.3.3 生成GIF动画
GIF动画在本质上是很多张图片按一定的顺序逐帧播放的结果,这里生成的GIF动画也是基于该原理。从2010年1月—2016年3月,每个月绘制1张所有港口在该月份箱量的分布图,就得到75帧图片,然后通过ImageMagick软件将75帧图片组合生成GIF动画,设置每帧动画时间间隔为0.12 s,并增加每帧动画的日期显示,得到最终的动态数据地图(见图10)。为方便说明,只截取动态图中的一部分来说明。
从全球分布来看,Z航运企业的出口箱量流向分布主要集中在欧洲、北美和东南亚,东亚的日本和韩国也是货物的主要出口国。欧洲一直是Z航运企业出口箱量的主要流向,是企业收入的主要来源之一。由图10可知,北欧、波罗的海沿岸国家一直保持着稳定的箱量水平,地中海国家的箱量经过了一个早期的发展阶段,特别是意大利箱量的增加成为欧洲的亮点。
对于经营集装箱班轮的航运企业而言,北美也是其重点经营的区域之一。由图10可知,Z航运企业出口到美西和美东的箱量呈现出不同的特点。美西区域的箱量主要集中在几个大的港口,且常年保持稳定;美东区域的箱量在集中在几个大的港口的同时,随着时间的推移逐渐新增一些较小的箱量分布点,很可能是因为加大了美东航线的开发力度。总体来看,北美区域的箱量经历了一个初期的增长过程,并持续保持稳定,为企业的发展提供了持续的收入来源。
此外,南美西岸的箱量稳中有增,南美东岸市场的箱量呈下滑趋势,而东南亚、中东、黑海、西部非洲和新西兰等地区的箱量分布也呈现出增长的趋势,这与这些地区的经济发展及Z航运企业积极开辟新市场等因v
动态数据地图非常清晰地展现出Z航运企业从2010年到2016年全球出口集装箱箱量的分配情况及发展趋势,分析的基础是企业生产经营中产生的数据,因此其展现出来的内容也是真实、客观的,企业的管理者在此基础上做出的决策将更加科学、合理,真正做到在数据驱动下的决策。
通过对企业动态数据可视化进行研究可知,对大量数据进行有效组织,从多个角度对数据进行剖析和开发,运用色彩化的图形图像来表现具有复杂维度的数据,能成为信息传达和沟通的一种有效手段[4]。通过绘制动态图像可表现数据在一定时间范围内的变化情况,使人们更容易发现数据中隐藏的季节规律和时间趋势;将其与数据地图结合起来,非常有利于展现同时具有时空特征的数据。此外,大数据的分析方法盘活了企业的数据资产,帮助企业的管理者发现问题、做出科学合理的决策,使企业对数据管理的投入产生新的价值。
随着大数据时代的到来,数据呈爆发式增长。在电子技术和信息技术的帮助下,航运企业在日常运营过程中获得数据的手段越来越多,例如通过船舶雷达与感应装置时刻获得船舶运行状态与水文信息,通过RFID技术、GPS技术和多功能传感器技术获得集装箱的运输状态,通过EDI数据交互、互联网技术获得业务数据等。航运企业拥有非常广阔的大数据应用场景,如何开发新的大数据分析和可视化技术、充分挖掘数据中蕴含的价值,是值得航运企业不断思考和探索的课题。
[1] 李舜,新常态下航运企业的商业模式创新[J].交通企业管理,2015(12):19-21.
[2] CHANG W. R Graphics Cookbooks[M]. 北京: 人民邮电出版社, 2014.
[3] KABACOFF R I. R in Action:Data Analysis and Graphics with R[M]. 北京:人民邮电出版社, 2013:158.
[4] 彭戎轩.数据可视化技术应用趋势与类型分析[J].西部资源,2015(6):84-85.
VisualizationofShippingCompanyDatawithR
ZHANGXiaotian,ZHANGPingjing
(COSCO SHIPPING Technology Co., Ltd., Shanghai 200135, China)
Big Data era is coming, and more and more enterprises are increasingly paying attention to the intangible assets. Shipping companies are in a very competitive market environment, and Big Data has become a new weapon for them to gain insights into the market and find the opportunities of survival and development. This paper analyzes the dynamic data visualization technology in R, and presents the implementation of time-space 2-dimentional visualization of shipping data, particularly for data management and decision-making support of shipping companies.
R; data visualization; data map
TP311
A
2017-06-05
张晓天(1984—),男,辽宁锦州人,助理工程师,硕士,主要从事集装箱航运系统工作。
1674-5949(2017)03-0077-08