张娟萍
(山西工程科技职业大学,山西 晋中 030619)
大数据是数字化时代的新型战略资源,是当今信息化社会最重要的生产力要素。在全国推进“交通强国”和“数字交通”战略实施的重要历史时期,推动我国综合交通运输大数据体系发展已成为新时代交通运输信息化、数字化发展的核心内容和关键所在。在利用大数据技术促进综合交通运输体系发展方面,一些发达国家及发展中国家都已经开展了诸多前沿研究和探索应用[1,2]。在当前我国现代综合交通运输体系构建的关键时期,借鉴已有经验,结合交通运输行业特点,建设和完善大数据体系对促进综合运输现代化发展具有非常积极的作用。
在百度百科中,大数据(big data)是IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[3]。IBM提出了大数据“5V”特点[4,5],即Volume(大量),Variety(多样),Value(价值密度),Velocity(高速)和Veracity(真实性)。
相比于IT领域大数据特征,综合交通运输行业大数据具有更鲜明的特征。
1) 数据量大。各类动静态管理对象和管理要素全周期数字化过程中,各类结构化、非结构化、半结构化数据构成了综合交通运输行业的大数据。随着发展,数据量呈现出数量级式、阶跃式增加。
2) 数据类型多。综合交通运输系统中既有自身产生的数据,也有外部交换共享所得的数据;既有静态数据,又有动态实时数据;既有字符、数值等结构化数据,又有视频图像非结构化数据,数据类型多种多样。
3) 处理速度快。在综合交通运输领域,各类数据数量随时间推移而快速增长。海量、快速的数据积累,势必要求更加高速、更加准确的数据分析与应用。只有实现快速化数据检索和分析,才能保证数据的生命力。
4) 价值密度低。随着行业信息化、网络化、数字化的发展,交通运输行业数据在大量积累,与此同时,无效数据、冗余数据也在大量增加,数值质量问题愈发突出,数据价值密度的高低与数据总量呈现出反比关系。
5) 真实性较差。由于各种原因,综合交通运输行业仍然存在“数出多源”、“一数多源”的现象,数据的唯一性、准确性、完整性、真实性仍有待提高。数据“质”与“量”的矛盾仍然存在。
大数据是信息技术发展的必然产物[6],更是行业数字化、信息化发展不可逾越的新阶段。伴随着数字化、网络化和智能化发展的新态势,综合交通运输大数据的发展也体现出了更加丰富的内涵。
1) 交通要素数字化。利用物联网感知、数字建模等技术,推动交通运输基础设施、交通运输载运装备、交通运输管理服务对象与事项的全面数字化,实现各类交通要素的数字化构建,打造“数字化交通要素”[7]。
2) 多网融合互联化。利用光纤网、移动通信网、无线传感网、卫星通信网等多种信息通信技术,通过“有线+无线”、“公网+专网”等多种模式组合,促进各类交通运输业务与信息系统互联互通和联网运行。
3) 综合应用智能化。在数据开放与应用层面,不同业务领域实现了数据的深度挖掘应用,推动了综合交通运输行业管理、公共服务更加精准化、智能化和科学化,支撑了业务协同和融合创新应用。
“十三五”时期以来,交通运输部在大数据顶层规划与指引方面出台了多个纲领性文件和相关政策性文件,为行业大数据发展指明了发展方向和路径,从管理和技术两个方面不断完善制度体系,为综合交通运输大数据发展奠定了良好基础。从体制机制来看,交通运输部、各省(市)交通运输主管部门都设有专职信息中心、职能部门或者委托省级政务信息化主管部门承担大数据发展规划、建设等相关职能。在多方有利因素的保障下,交通运输行业数据建设取得了理想成果:交通运输基础设施及载运工具数字化监测水平显著提高,为行业现代化进程奠定了扎实基础;国家综合交通运输信息平台建设取得新进展,行业管理水平和管理效率得到了大幅提高,基于大数据的决策和监管水平明显提升;在公共服务领域、物流服务方面,数字化进程明显加快,运输效率和服务水平显著提升。
经过多年的努力,在交通运输信息化建设方面,我们取得了较为理想的成绩,也积累了很多宝贵经验,但在大数据建设、应用管理方面仍存在一些问题。信息系统建设需求贴合度不高,应用系统与数据建设相对分散,信息孤岛仍然存在;数据和信息系统建设中标准采用不够理想,数据共享困难;数字质量不高,缺乏统一的数据治理体系,数字资源未能实现向数据资产的良性转化。大数据整合、共享、开放、应用,特别是涉及数据安全、增值应用等方面相关标准规范有待进一步完善;此外,涉及大数据全寿命周期的管理体制机制有待完善,亟需建立完善有效的跟踪监督和激励约束机制。
综合交通运输大数据体系是复杂系统,在具体建设中涉及到很多问题。主要的建设内容包括大数据中心、支撑保障体系和大数据支撑技术平台建设。
综合交通运输大数据体系基于大数据标准及规范体系、运维及安全管理体系两个保障体系,由数据源和数据治理及交换共享体系构建大数据中心,通过大数据支撑技术,实现大数据应用。
图1 交通运输大数据体系总体架构
3.2.1 大数据中心
基于云计算架构,接入、整合、融合交通运输行业内外部综合交通大数据,并提供数据存储、预处理等服务,建成行业全要素数据的数据资源汇聚共享池;梳理行业内外综合交通大数据资源,形成统一的省级综合交通大数据资源目录;建设综合交通大数据治理系统,实现“交换共享、资源目录、质量管控、平台监控”四位一体的数据治理体系,保障数据资源可查询、可追溯、可共享、可管理。
3.2.2 支撑保障体系
1) 在国家、行业、省级相关标准规范体系框架下,建立省级综合交通运输信息化建设标准规范体系,加强关键标准规范研究,加大标准规范宣传贯彻力度,开展标准规范符合性检测和考核评估工作。
2) 在行业、省级政务信息化运维和安全管理框架体系下,针对行业信息化运维与安全管理特殊需求,建立运维管理系统及安全监测管理工作机制,完善运维及安全管理制度,加强运维及安全管理。
3.2.3 大数据支撑技术平台
数据处理是大数据产生价值的关键环节。数据处理要完成大数据采集、大数据预处理、大数据存储及管理,以及大数据分析及挖掘。
1) 大数据采集技术,主要有基于开源系统Flume、Scribe的日志采集系统;基于Apache Nutch、Crawler4j、Scrapy等框架和MySQL和Oracle数据库技术的网络数据采集系统。
2) 大数据预处理技术,通过ETL处理,包含抽取Extract、转换Transform、加载load,将采集的各类结构和类型的复杂数据转化为单一的或者便于处理的构型;对数据进行“过滤”和“去噪”,从而高效、快速获得有效数据。
3) 大数据存储及管理技术,可采用Shared Nothing架构,结合MPP架构的高效数据库集群和基于Hadoop的技术扩展和封装来实现对互联网大数据存储、分析、调用和管理的支撑。
4) 大数据分析及挖掘技术,基于数据挖掘和机器学习技术,采用MapReduce、Hive、Pig、Spark、Flink、Storm、MLlib等大数据分析与挖掘技术,从海量数据中获得信息和知识,服务于交通运输行业,提高行业运行效率和集约化水平。
综合交通运输大数据体系在发挥积极作用的同时,也面临着一些挑战。相关标准规范、数据治理体系、数据共享开放应用等都是在建立综合交通运输大数据体系中需要重点关注的课题。伴随着管理和技术进步,大数据在综合交通运输中的应用将从根本上缓解传统交通运输治理面临的各种压力问题,为数字交通发展带来新的机遇。我们相信,随着新时期“数字交通”、“新基建”等战略的推进,交通运输大数据体系发展必将为现代综合交通运输体系的建立提供更多动能。