马小宁,李 平,史天运
(1.中国铁道科学研究院 铁路大数据研究与应用创新中心,北京 100081;2.中国铁道科学研究院 电子计算技术研究所,北京 100081)
铁路大数据应用体系架构研究
马小宁1,李 平1,史天运2
(1.中国铁道科学研究院 铁路大数据研究与应用创新中心,北京 100081;2.中国铁道科学研究院 电子计算技术研究所,北京 100081)
由于大数据中蕴含着巨大的商业和社会价值,对大数据的利用成为企业提高核心竞争力、抢占市场先机的关键。中国铁路转企改制后引发了一系列重大变革,铁路正处在关键转型期。开展市场化运营、建设服务型企业、向现代物流转型等,都对大数据技术的应用提出了迫切的需求。文章总结电信、金融及互联网行业开展大数据应用的经验启示,提出铁路大数据应用的体系架构。阐述铁路大数据应用技术体系,基于对中国铁路发展形势的分析展望了大数据的应用场景。对于铁路大数据应用的规划设计、落地实施等具有一定的借鉴意义。
大数据;体系框架;数据治理
信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源,大数据正日益对全球生产、流通、分配、消费活动及经济运行机制、社会生活方式和国家治理能力产生重要影响。最早预见“大数据”时代到来的是麦肯锡公司于2011 年5 月发布的研究报告:《大数据:下一个创新、竞争和生产力的前沿》。之后,大数据技术在世界各国、各个行业都引发了巨大的变革。
近年来,随着铁路信息化建设的逐步深入,系统覆盖面越来越广,积累的数据量越来越大。据初步统计,铁路数据总量已达PB级,日增长量超TB级。同时,随着物联网及传感器技术的广泛应用,特别是在铁路行车安全监控领域,积累了大量的非结构化数据。目前,无论是从铁路数据资源总量、日增长量,还是从数据类型来看,中国铁路已步入了大数据时代。
2013年,我国铁路转企改制,成立中国铁路总公司,并由此引发了一系列重大变革。铁路正处于关键转型期,面临一系列机遇及挑战。在大数据时代来临之际,如何发挥信息技术的支撑及引领作用,通过大数据技术的应用,充分挖掘数据价值,实现数据驱动决策,支撑铁路转型升级,是值得每一个铁路管理者思考的问题。
1.1 基本概念
1.1.1 定义
在国务院发布的《促进大数据发展行动纲要》[1]中指出,大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。
电信研究院指出[2],认识大数据,需要把握“资源、技术和应用”3个层面。在资源层面,大数据是具有体量大、结构多样、时效性强等特征的数据;在技术层面,处理大数据需采用新型计算架构和智能算法等新技术;在应用层面,大数据的应用强调以新的理念应用于辅助决策、发现新的知识。大数据不仅大,而且新,是新资源、新工具和新应用的综合体。
1.1.2 特征
区别于传统的数据集合,大数据具有4V特征,体量大(Volume),类型多(Variety),速度快(Velocity),价值密度低(Value)。
(1)体量大
大数据首先是数据量大,从TB级别,跃升到PB级别。全球数据量正以前所未有的速度增长,遍布世界各个角落的传感器、移动设备、在线交易和社交网络每天都要生成大量的数据。
(2)类型多
海量数据的危机并不单纯是数据量的爆炸性增长,它还牵涉到数据类型的不断增加。相对于以往便于存储的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对处理能力提出了更高要求。
(3)速度快
数据处理遵循“1秒定律”,需从各种类型的数据中快速获得高价值的信息。大数据时代,数据的创建、处理和分析速度持续加快,数据的实时性特征越来越强,现实中将数据结合到业务流程和决策过程中的需求越来越高。
(4)价值密度低
价值密度的高低与数据总量的大小成反比。以视频为例,连续不间断监控过程中,可能有用的数据仅有1~2 s。如何通过强大的机器算法更迅速地完成数据价值“提纯”成为目前大数据背景下亟待解决的难题。
1.2 行业应用
从大数据技术的概念产生至今,由于大数据本身的巨大价值及国家的大力推动,大数据已经渗透到各个行业,特别是电信、金融及互联网领域,在客户画像、精准营销等方面取得了良好的应用效果。
1.2.1 电信行业
电信运营商的数据来自于移动语音、固定电话、固网接入和无线上网等业务,也会涉及公众客户、政企客户和家庭客户。目前,国内运营商应用大数据主要有5个方面[3],如图1所示。
图1 电信行业大数据应用场景
(1)网络管理和优化
基础设施建设优化。通过分析话单和信令中用户的流量在时间周期和位置特征方面的分布,实现基站和热点的选址以及资源的分配。
网络运营管理优化。通过分析网络的流量、流向变化趋势,及时调整资源配置。
(2)市场与精准营销
客户画像。基于客户终端信息、位置信息、通话行为、手机上网行为轨迹等数据,为每个客户打上人口统计学特征、消费行为、上网行为和兴趣爱好标签,进行客户分群,完善客户的360。画像。
关系链研究。运营商可以通过分析客户通讯录、通话行为、网络社交行为以及客户资料等数据,开展交往圈分析。
精准营销和实时营销。在客户画像的基础上对客户特征形成深入理解,建立客户与业务、资费套餐、终端类型、在用网络的精准匹配,实现精准营销。
个性化推荐。为客户提供定制化的服务,优化产品、流量套餐和定价机制。
(3)客户关系管理
客服中心优化。客服中心拥有大量的客户呼叫行为和需求数据。深入分析客服热线呼入客户的行为特征、选择路径、等候时长,并关联客户历史接触信息、客户套餐消费情况等数据,建立客服热线智能路径模型,缩短客服呼入处理时间,识别投诉风险,提升客服满意度。
客户关怀与客户生命周期管理。在客户获取阶段,挖掘和发现高潜客户;在客户成长阶段,进行交叉销售,提升客户人均消费额;在客户成熟期,进行客户分群并进行精准推荐;在客户衰退期,进行流失预警,提前发现高流失风险客户,并作相应的客户关怀;在客户离开阶段,通过大数据挖掘高潜回流客户。
(4)企业运营管理
业务运营监控。基于大数据分析从网络、业务、用户、业务量、业务质量等多个维度监控业务和客户情况,从宏观到微观全方位快速准确地掌控运营及异动原因。
经营分析和市场监测。通过数据分析对业务和市场经营状况进行总结和分析,主要分为经营日报、周报、月报、季报以及专题分析等。
(5)数据商业化
数据商业化指通过企业自身拥有的大数据资产进行对外商业化,获取收益。运营商的数据商业化都还处于探索阶段,形式包括对外提供营销洞察和精准广告投放。
1.2.2 金融行业
金融行业包括银行和保险两个领域,具体的大数据应用场景如图2及图3所示。
图2 银行业大数据应用场景
图3 保险业大数据应用场景
在金融行业,大数据可以用于进行客户画像、客户细分,并在此基础上开展精准营销,包括实时营销,交叉销售及个性化推荐。还可用于贷款风险评估、欺诈分析,以及产品优化、运营分析等。
1.2.3 互联网行业
在互联网行业,大数据可用于进行用户画像、精准营销、产品分析、经营分析、广告投放及风险控制等,如图4所示。
图4 互联网行业大数据应用场景
大数据给企业带来价值的同时,也带来了前所未有的挑战。作为一项系统工程,大数据技术在铁路的应用需要战略、管理、业务、技术几方面形成合力,才能发挥出大数据的最大效用。铁路大数据应用的体系架构如图5所示。
2.1 技术体系
由于数据体量巨大、类型多样,处理速度超出传统数据处理技术的能力,大数据需要新型的技术体系和架构,才能满足在采集、存储、处理、分析等过程中对相应技术的需求。Hadoop目前已成为大数据处理事实上的标准,Hadoop生态体系越来越丰富,满足大数据的各种技术需求。应根据实际应用需求选择合适的技术使用。
图5 铁路大数据应用体系架构
2.2 数据资产
在大数据时代,一个显著的特征是数据成为资产,数据成为生产资料,数据成为体现企业核心竞争力的重要因素。开展大数据应用的前提是拥有一份清晰、完整、及时、优质的企业数据资产。数据资产管理是企业或组织采取的各种管理活动,用以保证数据资产的安全完整、合理配置和有效利用。
2.3 应用场景
大数据真正发挥作用在于和业务场景相结合,利用统计分析、数据挖掘等方法,生产出有价值的数据结果,辅助发现规律、优化流程、创造新的业务价值。铁路大数据应用场景的发掘,应在其他行业应用经验的基础上,一方面着眼于解决既有的业务痛点,另一方面结合铁路发展形势的需求。
2.4 安全保障
大数据时代到来,颠覆了传统的生活、工作模式,在各个领域都引发了巨大的变革,在数据安全方面也带来了前所未有的挑战。保障数据安全是打消各部门顾虑,促进数据开放共享的基本前提。应通过加强个人隐私保护、立法,以及各种技术手段,保障大数据安全。
2.5 标准规范
大数据更加强调开放、共享、创新、融合,不同来源、异构系统之间的整合是实现大数据应用的前提,标准规范在其中起着重要的作用。应建立面向不同主题、覆盖各个领域、动态更新的大数据建设及应用标准,为实现各级各类信息系统的网络互联、信息互通、资源共享奠定基础。
2.6 数据治理
数据质量决定着大数据分析的最终效果。数据治理的目的归根结底在于保证数据质量,并促进数据更高效地被利用。建立一套科学、简明、适合企业实际情况的数据治理机制,是企业实施数据整合、构建大数据分析能力的基础工程。
2.7 人才队伍
大数据的落地生效,归根结底,人在其中起着关键性作用。大数据是新一代信息技术的综合应用,从规划到应用、管理、实施等,需要拥有多方面知识的复合型人才。
3.1 应用架构
对海量、多样化的数据资源进行深层次挖掘分析,传统的数据加工技术已无法处理,需要具备新型、快速数据采集、存储、计算能力的大数据技术平台的支撑。铁路大数据平台应用架构如图6所示。
(1)数据整合模块[4]。满足关系型数据库、非关系型数据库等异构数据源的接入需求。支撑实时、非实时等不同数据采集频率的数据接入方式。
(2)数据存储模块。构建适用于不同应用场景的分布式列式存储数据库、分布式内存数据库、分布式文件系统等融合的数据存储架构,支撑各类业务的结构化数据、非结构化数据、海量实时数据、GIS空间数据的存储需求。
(3)数据计算模块。利用大数据的批量计算、内存计算及流计算等技术,结合各类业务逻辑和算法,实现海量数据的离线、在线分析与处理。
(4)数据分析模块。利用大数据的R语言、机器学习、模式识别及数据挖掘技术,满足实时、离线应用的分析挖掘需求,为分析决策应用提供基础支撑。
(5)数据管理模块。对主数据、元数据、各类业务数据模型以及数据处理任务的管理和监控,为平台提供数据管理及运维的支撑功能。
(6)安全管理模块。数据采集终端、数据源系统、业务应用系统接入时需保证接入方合法访问,接入端身份可认证;多个业务领域的数据接入后,需在存储层面确保数据不可非法复制、读取和修改,控制数据、文件的访问权限。
(7)配置管理模块。提供对各个组件集中化的监控、配置和管理,支持对平台的存储资源和计算资源进行配置管理。
3.2 技术架构
铁路大数据平台以整合、集成成熟的Hadoop生态圈开源技术为主,采用分布式存储(HDFS、HBase、Hive等)、分布式计算框架(MapReduce),以及Spark等开源产品或技术,同时利用统一目录、统一权限等实现完善的安全控制和数据管理功能。铁路大数据平台技术架构如图7所示。
图6 铁路大数据平台应用架构
图7 铁路大数据平台技术架构
4.1 铁路发展形势
2013年,铁路转企改制,铁路从计划体制向市场化运营转变,更加关注市场需求和市场变化;从国家机关向盈利企业转变,在履行社会职责的同时,一切以经济利益为中心;从内部管理型向外部服务型企业转变,致力于建设服务型企业,更加注重提升客户服务品质;从线下企业向电子商务企业转变,全面践行互联网+战略;从传统运输企业向现代物流企业转变,深化实施货运组织改革,大力发展门到门全程物流;从单一经营企业向多元化经营企业转变,实施多元化发展战略;从国内企业向国际化企业转变,积极贯彻国家走出去战略。
目前,铁路正处于关键转型期,面临一系列机遇及挑战,市场化运营、多元化战略、建设服务型企业、现代物流企业等都对大数据技术的应用提出了迫切的需求。
4.2 大数据应用场景
基于对铁路发展形势及铁路业务现状的分析,大数据未来的应用场景主要存在于以下几个方面。
4.2.1 客运营销
(1)客运客户关系管理
收集旅客实名制购票信息和旅客属性信息,进行客户偏好分析、客户等级管理、常旅客积分、客户价值细分、客户新增/流失预测,提高旅客满意度和忠诚度,吸引和稳定客户资源,提升铁路整体竞争力[5]。
(2)客运产品设计
结合互联网、社交网信息,开展客流预测,进行开行时段、开行对数、停站方案、列车编组、车底交路、乘务担当、票额分配等计划的编制工作,提高运能对需求的适应性。
(3)精准营销
针对客户偏好开展精准营销,实施互联网广告精准投放,提升营销成功度。
(4)客户服务优化
在票务服务的基础上,针对旅客多元化、个性化需求,支撑送票、餐饮、酒店、旅游、租车等各种延伸服务,提供一站式的旅客个性化服务,拓展铁路客运服务产业链。
(5)联合出行规划
铁路与公路/航空/旅游联合出行规划及推荐。
4.2.2 货运营销
(1)货运客户关系管理
进行客户分析关键指标采集,开展货运客户分级评价,制定相应的营销策略。建立铁路货运客户流失预测模型,选择流失评判标准,通过数据挖掘识别客户流失的关键特征,进行货运客户流失预警。
(2)货运量预测与预警
根据宏观经济、产业结构、竞争运输方式等影响因素,分析铁路货运量在各影响因素下的变化过程,挖掘货运量变化的规律性与趋势性,预测铁路货运市场的未来走势。构建货运量异常波动识别模型,设计铁路货运量预警方法,进而对非正常波动进行警告。
(3)物流优化升级
通过大数据技术的应用,实现物流过程的精细化管理,促进物流各环节的无缝整合,提升物流整体效率和客户服务水平。
(4)多式联运信息服务
促进信息共享,为运输计划制定及政府监控提供支撑。
4.2.3 基础设施
(1)故障诊断分析
基于检测、巡检、监测等历史数据,提取基础设施故障特征,开展故障成因分析,构建故障库,基于故障的影响要素变化规律,开展故障的自动识别与诊断分析。
(2)故障关联分析
开展轨道、列车控制的车载系统、地面控制系统、无线通信网络交互作用的故障综合诊断,发现基础设施故障发生规律,对故障进行跨专业综合诊断。
(3)故障预测
开展铁路基础设施状态的变化规律分析,预测未来设备状态的发展。
(4)维修养护决策分析
分析铁路基础设施设备状态变化规律与维修养护的关系,优化维修养护计划,为“计划修”向“状态修”维修管理模式转变提供数据和决策支持。
4.2.4 安全保障
(1)事故致因分析
分析安全事故影响因素、危险源等,分析常见铁路事故致因因子,找出导致不同类型铁路安全事故的关键因素,提高对安全问题的洞察发现能力,及时发现倾向性问题,提高安全生产决策的针对性。
(2)风险指数及因素关联分析
建立安全风险指标体系,通过动态指数图直观反映总体及各专业、各单位的安全水平。构建高速铁路风险触发、扩散和不同风险相互作用的过程模型,开展事故状态演化分析。发现铁路设施设备故障和运输生产中隐患问题的发生规律,有效辅助安全管理决策,对可能导致事故的因素能够及早发现和主动控制。
(3)安全风险预警
建立铁路行车安全环境与设备风险动态预警模型,对发生事故的风险因素的变化趋势进行定量预测,并通过相关案例进行验证,促进完善预警模型。
4.2.5 企业管理
(1)经济形势分析
通过对国民经济发展趋势、政策环境、交通运输业与经济发展的关系、行业发展的宏观环境、不同交通运输业市场格局等宏观分析指标和铁路市场需求情况、市场占有率、铁路运力增长趋势等具体数值指标的分析,为制定铁路发展规划、调整经营策略、市场战略定位提供依据。
(2)经济效益分析
铁路局收入来源分为客运、货运和多元经营等方面。关注指标包括收入、支出、利润、收入率、支出率、利润率。收集高铁、动车、既有线、广告、旅游、酒店的收入、支出和利润等数据,分析各收入来源的增减趋势及投入产出比,发现新的经济增长点及重点投资领域。
(3)运营效率分析
对国民经济、国内外铁路等不同行业的劳动生产率、人工成本进行动态跟踪,及时调整生产力布局和人员调配分流;从专业、区域、时间等不同维度对劳动生产率进行对比分析,发掘劳动生产率的变化趋势,分析劳动定员与定额、劳动组织结构等影响劳动生产率的关键因素及其变化,辅助管理者开展挖潜增效、推进机构改革及新技术的应用。
(4)投入产出比分析
通过对劳动力、基础设施、原材料、基础作业、设施、客货运等的投入产出,以及客货运业绩、经济效益指标的计算和变化趋势分析,在铁路运输生产和市场需求之间建立有效的运营效率计算和评价,对资源投入和服务产出进行对比分析。
(5)从业人员分析
提供人员结构、人员绩效、薪酬、员工成长、人力资源招聘、员工在职培训、企业内部转岗等方面的分析功能。
在大数据时代,数据成为国家基础性的战略资源,是核心的生产力,是未来的新石油。铁路转型期对于大数据技术的应用也提出了迫切的需求。大数据技术的应用,对于掌握用户需求、把握市场趋势、优化运输产品、提升服务质量、优化物流效率、提升安全水平都具有显著的意义。
为促进大数据技术在我国铁路行业的落地生效,切实发挥作用,应转变观念,充分认识数据的价值,强化顶层设计,发挥后发优势,借鉴其他行业大数据应用的经验启示,基于铁路业务发展形势需求,充分发掘大数据技术与业务应用的结合点,强化安全保障,夯实人才基础,充分利用铁路的数据规模优势,发掘和释放数据资源的潜在价值,全面提升铁路数据资源的经营开发水平。
[1]中华人民共和国国务院.国发(2015)50号 促进大数据发展行动纲要[Z].北京:中华人民共和国国务院,2015,8.
[2]中华人民共和国工业和信息化部电信研究院.大数据白皮书[Z].北京:中华人民共和国工业和信息化部电信研究院,2014,5.
[3]傅志华.大数据在电信行业的应用[EB/OL].http://www.cbdio.com/html/2014-12/02/content_1955700.htm,2014-12-02.
[4]中国铁路总公司.铁路数据服务平台建设方案[Z].北京:中国铁路总公司,2016.
[5]中国铁道科学研究院.铁路行业大数据应用重大工程[Z].北京:中国铁道科学研究院,2016.
[6]孟小峰,慈 祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1).
责任编辑 王 浩
System framework of railway big data application
MA Xiaoning1,LI Ping1,SHI Tianyun2
( 1.Research and Application Innovation Center for Big Data Technology in Railway,China Academy of Railway Sciences,Beijing 100081,China;2.Institute of Computing Technologies,China Academy of Railway Sciences,Beijing 100081,China)
Because of the tremendous commercial and social value in big data,it becomes the key to improve the core competitiveness and seize market opportunities of enterprise using big data.The transformation of China railway to enterprise has led to a series of major changes,and railway is in a critical period of transition.To carry out marketing operations,build a service-oriented enterprise,transform to the modern logistics,and so on,urgent demand was put forward for the application of big data technology.This paper summarized the experience of telecommunication,fnance and internet industry to carry out the application of big data,and proposed the system framework of application of railway large data,described the technology system of application of China railway big data,and prospected the application scenarios of big data based on the analysis of China railway development situation.The paper has a certain reference signifcance for the planning,design and implementation of railway big data application.
big data;system framework;data governance
U29-39
A
1005-8451(2016)09-0007-07
2016-06-15
中国铁路总公司科技研究开发计划课题(2015X003-F);中国铁道科学研究院院基金重大项目(1551DZ8004)。
马小宁,副研究员;李 平,研究员。