美国经济学家马克·莱文森(Marc Levinson)撰写了《集装箱改变世界》一书,书中认为集装箱化除了降低货物运输的成本,实现货物运输的标准化之外,还以此为基础逐步建立了全球范围内的船舶、港口、航线、公路、中转站、桥梁、隧道、多式联运相配套的物流系统,从而改变了商业模式、推动了经济全球化、并对人类文明产生重大影响。由于从经济、历史、哲学的高度对集装箱化的支点作用进行了审视和评价,该书被《金融时报》与高盛集团评为2006年度的“最佳图书”。
从集装箱对世界的影响来看,我们可以提炼出很多有益的思想结论。如行业创新往往由能够接触到业务实务的“外行”创造,就如同集装箱的发明者是一位卡车司机;标准化的过程并不是去除中间环节,事实往往是相反的,更多时候我们创造了更多的细分岗位和业务流程,这也是为什么集装箱运输比散货运输流程复杂的原因;标准化从短期和局部来看往往是增加成本的,但是在规模经济作用下,边际成本递减的特点明显,因此从全局来看却能降低成本,这也是集装箱大行其道并越发趋于大型化的经济学动因等;划时代的创新往往不仅影响本行业,更影响其上下游行业,集装箱运输的先驱们只顾着跑船运赚钱无意改变世界,但是制造商和零售商在其中发现了低成本和高效率,并实际推动和分享了集装箱化的价值。
今天,不管你从事什么行业,想必都听过大数据、云计算、区块链,而在这些IT前沿技术的背后,正在发挥着重要作用的IT技术模式是分布式思想。在《集装箱改变世界》一书中,莱文森认为“集装箱的价值不在于它是什么,而在于怎样使用”,由于集装箱代表了“高度自动化、低成本和低复杂性的货物运输系统的核心”,才会使其成为了推动经济全球化的基础。与之类比,在实现大数据、云计算、区块链的过程中,本质上来说,要解决的核心问题都是计算、存储、网络资源的组织与重构,由于数据的爆发式增长和业务的平台化转型,IT业界本质上在寻找着一种高度集成化、最优化和低运维难度的计算资源管理系统。所以,划时代的IT技术变革有可能近在眼前,它就是由IT外行——航运人提出的集装箱化思想,即寻找到能够像“集装箱”一样规范计算资源并降低运营维护成本的IT技术。
集装箱化思想的IT应用就是“容器”技术。集装箱和容器在英语中对应的单词都是“Container”,可见两者的思想渊源。为了帮助航运人了解这种技术的特点,在这里把船舶和计算机操作系统做个类比,比如我们常用的“Windows 7”、“Windows XP”、“Android”等都是操作系统,这些操作系统就好比是巴拿马型船和海峡型船的区别一样往往是适用于不同的应用场景和航线。当我们在一个操作系统上安装并运行各种软件时,常常会有这样的烦恼,比如你的手机上装了一个微信软件,但你想同时用两个不同的账号登录时,你发现软件本身并不支持,但是你也不能多次重复在自己的手机上安装同样的APP应用。这种情况就像是集装箱化之前,一辆散货船上要同时装两种相互排斥的货物,比如煤和粮食、茶叶和衣服、酒精和汽油,想不相互影响是很难的。容器技术给操作系统带来的改变就如同集装箱给船带来的改变一样,它把每个程序能够访问的文件、网络、计算资源相互隔离开,各自封闭在一个“容器”之中,这就使程序之间不知道彼此的存在从而避免了资源占用的冲突。基于这种技术,将来你想在自己的手机上安装多个微信软件是轻而易举的事,而且无需每次都去应用商店下载你的应用,你可以在一次成功的容器应用安装之后反复的复制已经安装好的程序,并且统一进行版本升级。
容器技术的问世对IT业的影响举足轻重,将不会亚于集装箱对世界经济的影响。从宏观来看,容器技术对IT业的影响主要从两个方面产生:一方面是解决分布式技术应用中的运维管理成本问题,为云计算、大数据等前沿技术找到了性能和成本的最优化平衡支点;另一方面是改变了软件既有的开发生命周期和组织模式,大大降低软件开发、发布、维护、升级的成本,更好发挥IT行业的人力价值。
容器技术比虚拟化技术更加适用于分布式商业云计算和大数据计算平台的搭建。前文对容器技术的解释只是为了便于理解,容器技术目前主要的应用并非手机操作系统,而是在运行着企业级应用的服务器操作系统之上。在企业级的IT应用领域,企业的ERP、CRM、WMS、财务管理等系统最初都是直接安装在服务器的操作系统上,但是后来人们发现企业信息系统的运营维护需要经常备份这些系统、优化数据库、重装操作系统、更换服务器,就像我们自己使用的个人计算机一样,每次备份数据、清理系统、重装系统往往要耗费我们大量的时间和经历,并且一不小心就会遗失重要的数据和资料。因此,就需要有专门的工具去减少这种高风险、低价值、重复性的操作,提升企业级应用的运营维护能力。
虚拟化技术曾经一度是解决这一问题的最佳技术手段。它把企业级的应用程序安装在虚拟机上,而不是像过去一样直接安装在一台物理服务器上,虚拟化技术为此提供了一个可以完全模拟一台计算机完整功能的程序,使得我们可以像使用物理服务器一样,在虚拟机上安装操作系统和应用程序。虚拟化技术的出现,大大提升了机房运营的效率,一台物理服务器可以被虚拟为多个虚拟机并行运行,发挥物理机的全部计算性能,每个虚拟机都可以随时备份或是迁移到另一个物理服务器上,每台虚拟机都可以按照资源需求分配和调整CPU、内存和IO设备资源的配置。但是,虚拟化也有一个致命的弱点,那就是虚拟化平台自身的模拟和调度功能对物理服务器的性能有不可忽略的损耗,并且在应对分布式应用场景时软件的部署、分发、升级难度并没有比实际安装在物理服务器上更方便。于是,在很多知名的互联网企业里,一些大数据应用环境并未采用虚拟化技术实现,而是直接采用PC服务器作为分布式节点的传统方式,这也成为了进入这一领域的资源门槛之一。
容器与虚拟化大不相同,其区别正在于集装箱化思想。如果我们将物理服务器看成一条船,那么虚拟化技术就像是把这条船改造为滚装船,大大小小的车辆(操作系统)可以拉着货物(应用程序)开上这条滚装船,或是在下一个码头下船去另一个滚装船上。但是这样做必然带来运力被浪费在运输这些车辆之上的问题,对于量大的货主来说,还不如直接把船改成散货船拉货效率高。但容器技术并不是模拟出虚拟机,它为应用程序提供了隔离的运行空间,让原本存在冲突风险的程序运行于同一操作系统之上,这个操作系统就是将服务器这条船改造为集装箱船形式,容器就是船上的一个个集装箱,食品和衣服这两种本来可能无法共用仓位的货物,因为放在了容器中,可以由一条船来统一运输。因此,容器技术能最大限度的降低对物理服务器的性能损耗,但同时保留了虚拟化技术的灵活性。不仅如此,容器技术直接面向应用程序层面,因此它还允许应用程序的版本升级以镜像文件的增量方式进行,翻译成通俗的说法,就是用容器打包好的软件就不需要再进行安装可以直接运行在操作系统上,遇到版本升级也不需要卸载旧版本、安装新版本,而是每次把改动的一部分内容同步即可。所以,容器技术既有像虚拟化技术一样维护成本低的优势,又能最大限度发挥物理服务器的计算性能,非常适合以分布式思想为基础的云计算和大数据应用实施(图为CPU数据吞吐能力的横向比较结果)。
在容器技术出现以前,软件和程序的生命周期是从设计、开发、测试、实施(或安装)到运维的一个大体流程,一个软件的版本更新,也要反复执行上述完整流程。如果是分布式软件,那么还需要涉及更加复杂的批量管理、测试、优化调度、冗余机制等工作。这就使得大数据采集、存储、分析、应用的开发面临着极高的成本和人力投入,如果还需要实现生产和测试等多个大数据开发环节的话,投入也会成倍增加,除了互联网独角兽企业和金融等高回报行业,大部分的产业用户都容易望而却步。
容器技术对于开发带来的好处有三个方面:一是分布式应用的集群批量安装、管理、升级、备份都更简单,只需要将镜像克隆发布即可;二是硬件投入成本可控,不同版本的应用可以复用同一个硬件设备,测试系统和生产系统可以同时在一套硬件体系里并存;三是应用升级可以采用增量方式,数据与应用功能分离,使得新版本可以继续旧版本软件的工作平滑升级。这些优势非常适合于敏捷化开发,即以用户的需求进化为核心,采用迭代、循序渐进的方法进行软件开发。这会引起IT企业内部需求分析、开发、测试、售后技术等多个原有软件工程分工被打破而重构,也将对所有使用企业级信息化解决方案的用户企业带来产品委托开发、运营维护、容灾机制等多方面的变革,对IT产业将带来深远的影响。
未来面向企业级的软件产品开发,将由于容器技术的帮助而更易于实现第三方应用加载,如标准化数据接口、数据平滑迁移、快速定制等,并使具备快速开发部署能力,并为大数据、云计算、区块链等分布式应用提供更好的支撑。
与很多行业相同,航运业的大数据应用仍处于初始阶段。在目前这个阶段,众多港口、航运、物流企业要应用大数据,首先必须落实六个前提:一是数据资产,自己掌握的数据是否都已梳理清楚,并进行了有效的数据资产管理和安全防护;二是数据规范及治理,不同的数据资源之间是否理清了业务上的关联,并可以应用统一的ID进行匹配,并可以支撑业务系统之间的协同处理;三是数据采集可靠性,数据采集是否与业务发生同步进行,滞后、错误、篡改的数据是否还大量存在;四是大数据级的技术支撑,IT技术除了确保日常业务的顺利开展,是否为数据持久化、计算规模化、分析实时化等新需求做好了准备;五是数据思维意识,企业管理和经营的各层面是否已经具备了大数据的基础知识,对大数据的思维模式有了深刻的理解,能否支撑基于大数据的业务创新;六是数据融通开发及交换,对企业外部的行业数据资源情况是否有充分了解,是否有交换、共享、采购外部数据资源的可靠渠道和预算。
要做到上述六个前提条件的每一条都非常不易,第四条则如同梦魇。其中,第一、五、六项问题都可以通过企业战略部门研究和委托咨询机构来协助完成,在很多港航企业中投入成本和风险可控;而第二项数据规范问题非常类似于我们国家正在推进的企业三证合一,即通过统一社会信用代码来实现企业工商、税务、行政多方面的信息相互关联匹配,从而为全社会诚信体系奠定发展的基础,事情虽难、难在推进、而非技术;第三项问题,要想保证获取的数据可靠并可用于大数据应用,数据必须在业务进行的同时被采集,而要做到这一点,要么让机器代替人去线下搜集数据,要么把交易和服务完全放到线上来,因此航运大数据就只有两个来源,那就是物联网和航运电商。总的来说,上述五个问题的解决成本要么可控,要么至少实现路径清晰可见,但是第四个问题却成为大家心里“最没底”的一件,不仅港航企业的管理层完全摸不到头绪,纠结于“云”和“大”这样的概念之中,很多企业的技术团队也是缺乏新技术的相关经验,找来的号称做大数据的技术团队也往往是数据中心(IDC)和商业智能(BI)领域的企业换了一件“马甲”的解决方案,而非真正的大数据解决方案。于是,不少政府部门和企业花了几千万甚至上亿元投资建大数据机房、大数据平台,最终的效果还是不理想,并且还要为已经付出的投入增设庞大的岗位编制和运营维护费用。所以,第四条问题就如同港口、航运、物流企业所面临的黑洞和梦魇,成为港航企业接触大数据最大的障碍,因为企业对建设投入的规模、技术路线的可靠性、产出回报效果都不可控。
其实,能够解决第四条的大数据技术非常丰富,比如Spark、Hadoop、Kafka、Stome、HBase等都已经达到PB级(相当于1024TB)以上的企业应用级别。但是这些技术主要脱胎于移动互联网、社交网络、搜索引擎和网络金融等领域,航运业的大数据应用规模虽然小一个量级,却缺乏有将这些技术向航运业应用移植的专业解决方案和团队,很多国际知名的大数据解决方案企业也未能给业务流程复杂、涉及面广、数据资源分散的航运业量身定做的企业级产品。于是,港口、航运、物流企业要实施大数据时,面临着要么自己研究前沿大数据通用解决方案进行二次开发,要么冒着找个“李鬼”来滥竽充数的窘境,对于企业IT团队来说大数据要填的“坑”实在太多。
容器技术的出现为推进航运大数据应用带来了曙光。得益于容器技术在硬件资源管理、运营维护便利性方面对大数据技术的支撑,我们有可能针对港口、航运、物流业的数据特点和应用需求,提供硬件投入少、运维成本低、并充分体现稳定性和健壮性的专业大数据解决方案。帮助港口、航运、口岸企业以最小的运营维护成本和最小的试错风险步入大数据时代,并解决其数据存储持久化、数据加工规模化、数据计算实时化、及数据分析可视化等方面的应用痛点。目前,首个针对港口、航运、物流、贸易细分应用领域的企业级“轻量化”容器技术Wizmap Cloud已经研制成功,该技术由上海义为科技和港航大数据实验室合作研制,能够解决客户关于使用何种方式合理搭建未来的大数据结构,以落实数据资产应用和数据资产运营问题,更好地为其业务发展进行数据层面的支撑与服务。该技术已应用于一体化、轻量化、企业级大数据解决方案“Wizmap Data Hub(WDH)”,只需3 ~5名操作人员即可代替20~30人的规模团队对大数据运营维护和分析的要求,使其在初期软硬件投入皆可控的同时,又为未来的业务增值预留了近乎无限的扩展空间。
无疑,容器技术对推进大数据在各产业的应用,改变软件产业既有的工程模式都将有重大的影响。而这种影响,是航运思想跨界逆袭IT行业的一件重要事件,本文除了要为此点赞以外,更重要的是继续为时下持续升温的航运大数据概念热做个客观评述。航运大数据任重而道远,在同行的征程上,愿我们眼睛注视着前方的道路,脚下迈着坚实的步伐,而不要过于留恋沿途短暂的热闹景象。
集装箱化思想将彻底改变IT产业
上海国际航运研究中心 徐 凯