铁路物流基地统计数据分析方法探讨

2019-05-30 03:25
铁道货运 2019年5期
关键词:统计数据聚类铁路

宋 云

(中国铁路北京局集团有限公司 统计和节能环保所,北京 100860)

统计数据分析是发挥统计工作咨询、监督等功能的主要手段,是为决策者提供数据支持和决策依据的重要方法。2015年,中国铁路总公司规划了208个物流基地,其中一级33个、二级175个[1],近年来逐步建成开通。对铁路统计分析工作而言,铁路物流基地统计分析属于新兴业态,传统以生产管理为核心的铁路货场的数据采集分析方法,难以满足效率效益导向型铁路物流基地数据分析的需求。为准确把握铁路物流基地的建设运营情况,在全面、准确地采集铁路物流基地运营统计数据基础上,需要选用科学、合理的方法系统地分析统计数据,对于充分发挥统计工作对铁路物流基地业务运营的支撑作用,具有重要的理论价值和实际意义。

1 铁路物流基地统计数据采集方法

铁路物流基地统计数据采集方法是指根据研究目的和要求,主要针对调查对象、调查单位的原始资料开展搜集登记工作的采集方法。按照统计数据的来源,可以分为铁路内部统计数据采集法和入驻企业统计数据采集法。

1.1 铁路内部统计数据采集法

(1)统计报表采集法。统计报表采集法是铁路内部统计数据采集的主要采集方法之一,目前多项铁路物流统计数据都是采用统计报表的方法进行提报和采集的,多按照中国铁路总公司、铁路局集团公司和各专业运输公司的相关规定,明确统计报表的内容、表式和时间程序等信息,自上而下统一布置、自下而上逐级上报。目前铁路内部的统计通常采用定期统计报表制度,用于采集企业业务运营中的各类数据,为企业管理部门和相关政府部门管理决策提供重要的数据资料。例如,与机车、货车和运输过程统计相关的统计信息,其统计报表可以采用《铁路机车统计规则》(铁总计统[2016] 261号)、《铁路货车统计规则》(铁总计统[2017] 195号)和《铁路货物运输统计规则》(铁总计统[2017] 121号)中的已有统计报表。对于既有的铁路运输相关统计规则或统计管理办法中尚未涉及,需要新增的统计报表,应充分遵循统计报表设计规则,在完成设计和初步试用后,纳入相关统计规则,形成固定的统计模式,在铁路物流基地的运营统计中实施应用。

(2)信息系统采集法。信息系统采集法是除了统计报表采集法外,在现代企业管理中的另一种重要的数据采集方法[2]。当前我国铁路经营管理中,涉及到众多的管理信息系统,主要包括:货运电子商务系统、货票系统、货运站系统、集装箱管理系统、零散快运货物作业平台、现车系统、十八点统计分析系统、接取送达物流系统等。通过既有的铁路生产管理信息系统,可以提取得到各项所需的铁路物流基地运营统计数据信息。与此同时,为进一步完善铁路物流基地运营统计信息采集和业务运营管理,还可以根据实际需要建立相对独立的铁路物流基地管理信息系统。利用该系统,可以采集铁路物流基地运营中产生的各类统计数据,如铁路物流业务规模统计数据、物流经营效益统计数据、物流基础设施设备统计数据、物流从业人员统计数据、物流服务质量及社会贡献统计数据等。对于来自既有铁路生产管理信息系统的统计数据与来自铁路物流基地自身管理信息系统的统计数据,可以通过建立的数据传输通道和规定的数据处理规则,进行信息处理整合,形成完善的铁路物流基地业务运营基础数据库,为后续的业务评价和决策支持提供原始数据资料。

(3)专门调查采集法。专门调查采集法是数据统计工作中,对于统计报表采集法和信息系统采集法的一种重要补充。针对运营管理中需要解决的突出问题,在需要相关统计数据支撑时,即可采用专门调查采集法,对目标调查对象进行专门调查,由专业的数据统计调查人员,实地赴调查对象所在地,进行相关数据的采集。例如,为全面了解和掌握当前我国铁路物流基地的规划、建设和运营状况,中国铁路总公司在2018年3月和2018年10月,分别组织专门的调查人员2次赴各铁路局集团公司的典型铁路物流基地进行专门调查。通过调查,采集到了全路各级别铁路物流基地的建设运营数据,为铁路物流基地运营评价和发展战略调整奠定了良好基础。

1.2 入驻企业统计数据采集法

铁路物流基地与传统铁路货场的显著区别之一表现在其具有更好的市场开放性,除服务于铁路运输企业自身以外,其向社会物流企业、生产企业、商贸企业等社会企业开放,积极引导社会企业入驻基地,形成铁路基础设施与社会企业设施的融合发展。在对铁路物流基地入驻企业信息的统计过程中,可能涉及到入驻企业商业信息保密等因素,导致信息统计不全或难以实现。因此,在入驻企业统计数据采集中,主要有以下方法。

(1)基于物流基地监控方案的入驻企业数据采集法。铁路物流基地监控方案是确保铁路物流基地安全运营的基础和保障。通过对铁路物流基地内部及周边进行视频监控,包括周边道路监控、物流基地出入口监控、内部道路监控、停车场监控、作业区监控和办公区监控等,可以获得入驻企业物流车辆、人员的生产情况,进而获得入驻企业在铁路物流基地经营的相关统计数据。

(2)基于合作协议的入驻企业数据提报法。入驻企业与铁路物流基地是长期合作、利益共赢的合作伙伴,为进一步改善物流基地服务状况,提升服务水平,铁路物流基地可以同入驻企业签订战略合作协议,在协议允许范围内,要求铁路物流基地入驻企业提报一定的在该基地运营的生产信息,如在该基地到发的业务量、收入等。采用基于合作协议的入驻企业数据提报方法,可以获得更为详尽、准确的铁路物流基地入驻企业统计数据。

(3)基于第三方调查的入驻企业数据采集法。基于第三方调查的入驻企业数据采集法,主要应用于对铁路物流基地入驻企业满意度的调查,可以通过引入专业的第三方数据调查及咨询机构,利用其专业的数据采集及评价技术,对入驻企业的满意度进行调查,分析调查结果,提出铁路物流基地改进服务内容及提升业务水平的建议和意见。

2 铁路物流基地统计数据处理

2.1 重复记录处理

由于铁路物流基地统计数据的采集渠道多样,因而不同统计主体或统计人员在进行原始记录生成整理的时候,难免产生多个记录表征同一统计对象的情况,此类数据被称为重复记录。消除重复记录可以针对2个数据集或者一个合并后的数据集,检测出标识同一个铁路物流基地的重复记录,即匹配过程。检测重复记录的算法主要有:递归的字段匹配算法、基本的字段匹配算法、编辑距离、Smith-Waterman算法、Cosine相似度函数等。

2.2 异常数据处理

异常数据是指由于人工记录失误、信息系统错误或者统计报表错误等原因,而产生的与实际数据不符的异常值,也就是有利于数据聚类以外的离群点数据。异常数据的处理通常是基于统计分析算法及数据挖掘技术,采用聚类算法获得数据聚类,再从中剔除偏离数据聚类的离点。同时,还存在一类异常数据,就是在统计过程中不符合统计标准的数据,如在就业岗位数量统计中统计数据出现的小数。

2.3 缺失数据处理

铁路物流基地数据统计时,很难避免出现数据缺失,产生的原因可能有人因疏失或系统错误。处理缺失数据的方法主要有:删除整条数据记录、进行二次统计或采用拟合方法填补缺失数据和不予处理等。由于不能放弃对于某个铁路物流基地运营情况的评价,因而删除整条数据记录的方式,在进行铁路物流基地运营评价中不可行。不处理的方式则会导致铁路物流基地运营评价模型在计算中因个别数据确实出现运算错误,影响评价结果。因此,在遇到缺失数据时,应采用进行二次统计或数据拟合的方法,对缺失的统计数据项进行补充完善,形成完整的统计数据记录。

2.4 数据处理流程

铁路物流基地基础数据处理工作从总体上可以分为4个主要环节:数据采集、数据审核、数据预处理和统计数据分析[3]。在铁路物流基地基础数据统计过程中,需要各个部门、各个单位,环环相扣。基于信息技术的铁路物流基地基础数据处理流程如图1所示。

图1 铁路物流基地基础数据处理流程Fig.1 Basic data processing flow for railway logistics parks

(1)数据采集。数据采集是铁路物流基地统计的开始,也是进行铁路物流基地统计及评价分析工作的基础。通过合理设计数据采集方法,得到完善的铁路物流基地统计基础数据,是保证铁路物流基地运营评价结果科学性的根本保证。

(2)数据审核。数据审核是进一步确保统计数据质量的方法和手段,通过完整性审核、准确性审核和规范性审核,能够弥补统计数据采集工作中出现的不足,作为提升统计数据质量的第2道保障。

(3)数据预处理。数据预处理是统计数据分析动作的前期准备,在完成数据采集及审核工作后,采用科学手段对数据中的噪声数据进行清理和校正,进一步提升数据统计分析及评价结果的科学性。

(4)统计数据分析。统计数据分析通过运用一系列科学的数量分析方案和经济理论知识对已经加工整理过的铁路物流基地统计数据及其他信息加以分析和研究,以概括出各项统计数据之间或其他统计信息之间的本质联系,从而反映出各种经营现象和管理工作之间的联系,以达到最终指导经营,为管理层决策提供数据支撑和理论依据的目的[4]。

3 基于K-means聚类的铁路物流基地统计数据分析方法

铁路物流基地统计数据分析是进行铁路物流基地统计的重要目的之一,通过对统计获得的基础数据进行分析,可以发现统计数据中存在的数学规律,反映铁路物流基地的运营情况。K-means聚类算法是一种解决大数据聚类问题的方法,其特征是能够很好地解决超大规模数据集与高维数据集的聚类。结合铁路物流基地统计字段较多、数据规模巨大的特征,基于K-means聚类算法对铁路物流基地统计数据分析方法进行研究,并结合实际算例进行验证。

3.1 K-means聚类算法

K-means聚类算法是一种迭代求解的聚类分析算法,其应用步骤如下。首先随即选取K个评价对象作为模型的初始聚类中心,然后依次计算每个对象与各聚类中心之间的空间距离,依据每个对象与各个聚类中心之间的距离,将所有对象分配给距离其最近的聚类中心[5]。每个聚类中心及分配给其的聚类对象分别代表一个聚类。当全部聚类对象都被分配完毕后,表示一次计算结束,每个聚类的聚类中心会根据聚类中分配的现有对象被重新计算。重复迭代此过程,直至满足某个终止条件为止,完成聚类计算。聚类终止条件既可以是无聚类中心或最小数目的聚类中心再发生变化,无对象或最小数目对象被重新分配给不同的聚类,也可以是聚类误差的平方和局部最小等。研究选取聚类误差的平方和局部最小作为终止聚类算法的计算条件[6]。实际操作中,可以应用SPSS数据分析软件,使用软件嵌套的K-means聚类算法对统计数据进行自动化聚类分析,获得聚类分析结果。K-means聚类算法在铁路物流基地统计数据分析中的应用流程如图2所示。

3.2 算例分析

基于对全路铁路物流基地运营统计数据的统计调查结果,选取28个铁路物流基地的统计数据作为案例分析对象,对统计数据分析方法的可行性和有效性进行验证。

图2 K-means 聚类算法在铁路物流基地统计数据分析中的应用流程Fig.2 Application flow of K-means clustering algorithm in statistical data analysis of railway logistics parks

由于当前铁路物流基地数据采集的手段还较为传统,以人工填报统计报表方式为主,采集运营管理数据的效率低下[7-8]。因此,在铁路物流基地调查的数据采集过程中,在统计数据采集质量和效率方面,都存在一定的问题。通过统计表报采集到的铁路物流基地运营管理数据,在数据的规范性、完整性、科学性等方面,均存在不足。在此采用二次统计和数据拟合等方式填补空缺数据,并对数据噪音进行清理,以有效提升铁路物流基地运营评价的科学性及合理性。经调查统计及数据预处理,整理得到28个铁路物流基地的统计数据如表1所示。

对表1中数值进行归一化处理,采用SPSS软件对28个统计对象进行K-means聚类分析,聚类结果显示,统计对象被分为4类,其中,第一类包含10个对象,第二类包含11个对象,第三类包含6个对象,第四类包含1个对象。进一步分析各聚类的数据特征,可以判断其中第二类属于运营状况最好的聚类,第一类运营状况较好,第三类运营状况适中,第四类运营状况欠佳。总体看来,运营状况良好的铁路物流基地占比39.3%,运营状况较好的铁路物流基地占比35.6%,铁路物流基地的整体运营状况较为理想。

结合铁路物流基地的实际运营情况来看,大部分一级铁路物流基地为新规划建设的铁路物流基地,其投入运营时间较短,尚处于市场开拓期,在经营业绩方面还存在很好的发展空间,可以通过进一步开拓市场和优化调整经营策略,实现更大程度的业绩提升。部分二级、三级铁路物流基地,是由既有铁路货场转型升级改造而来,具有很好的市场基础,此类铁路物流基地应继续积极发挥既有优势,规避发展中可能存在的劣势,优化运营管理策略,促进业绩提升。

4 结束语

铁路物流基地统计数据分析的最终目标,是为铁路物流基地规划建设和运营管理优化调整提供决策依据,以实现全面提升铁路物流基地运营水平和经营效益的目的。通过优化铁路物流基地统计数据、统计分析方法,可以获得更为科学合理的数据分析结果,用以指导铁路物流基地的经营实际,以取得更好的运营效果。在总结梳理铁路物流基地运营策略优化过程中存在共性问题和通用经验的基础上,获得可推广、可应用的铁路物流基地运营策略优化建议,以推动统计工作对业务运营指导作用的发挥,可以为实现铁路物流基地高质量发展提供有力的数据支持。

猜你喜欢
统计数据聚类铁路
创新视角下统计数据的提取与使用
沿着中老铁路一路向南
一路欢声一路歌 中老铁路看点多
基于K-means聚类的车-地无线通信场强研究
铁路机动车管理信息系统
国际统计数据
2017年居民消费统计数据资料
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法