Tom+Macaulay+Charles
这家工程公司通过对传感器信息进行监测来发现故障前兆,提前进行铁路维护.
西门子设计列车有近150年的历史,包括1879年的第一台电动客运机车。而它最近在轨道上的创新是由数据分析驱动的。利用传感器分析列车和轨道上的信息,有助于使铁路维护方法从被动变为主动。
通过诊断传感器数据,评估部件的状态,公司可以提前发现显示什么時候会出现故障的模式。然后,通过实时监测信息,西门子在故障导致服务中断之前迅速做出反应。如果检测到异常,则发送部件进行检查。
这种方法的好处包括减少延误、增加里程、降低劳动力成本,并且提高了维护计划的效率。这样,西门子能够为客户提供更多基于性能维护的合同。
在轨道上应用数据科学
几年前,在德国的一家机车工厂,西门子召集了一批数据科学家和工程师来开发预测列车部件和铁路基础设施故障的算法。
西门子移动数据服务主任Gerhard Kress向《英国计算机世界》解释说:“这是因为工业数据的表现与互联网数据不同,我们使用的很多经典分析模型在这种环境下效果不佳。另外,因为这些部件不会经常性的出现故障,所以需要极高的预测精度,比我们之前见过的任何其他组件都高。”
仅在过去两年中,这一团队已经在新的数学方法上提交了30项不同的专利。
2013年,西门子转向大数据供应商Teradata,目的是让这些模型具有先进的数据分析功能。西门子部署了自己版本的Teradata统一数据架构(UDA),包括数据仓库、Aster发现分析工具和Hadoop应用。
预测分析增强了检测能力,使西门子在俄罗斯的高速列车的可用性提高到了99.96%,而泰国的地铁机车可用性则达到了99.98%。
西门子还使用这个框架为英国很多地区的列车提供主动维护,包括伦敦的Thameslink铁路系统。
列车上的传感器设置
Kress把他的列车数据分析策略分成三个部分:了解不同部件的状态来预测故障;利用天气、平稳的行驶和多功能卫生间来提高乘客的体验;最大限度地提高能源效率,降低运行成本。
他说:“一辆列车在生命周期中消耗的能量比购买列车的成本高得多。如果做得好,很容易将能耗成本降低10%。”
一辆机车通常有150到200个传感器,高速列车每节车厢有300到350个传感器。这包括每个制动器上的一些传感器,它们分析制动压力和液压油,以保证列车能及时制动。它们测量部件的温度和压力,并将数据与数千份故障和修复报告记录进行比较。
Kress表示:“传感器也存在故障风险,如果安装太多的传感器,它们带来的问题比其能解决的问题还要多。我们尽可能少地采用传感器,因为安装得越多,出故障的可能性就越大。”
电机、变速箱、轴承和车轮都是机械连接的,并不是都需要各自的传感器。西门子可以使用一个虚拟传感器,它通过算法评估来计算每个部分的误差,例如传热率等。
还可以把不同部件的数据组合起来,这样,列车和铁轨上的传感器互相监测,从而减少了所需的检查次数。
分析有什么好处?
西门子以前依靠应急响应和例行检查保持列车正常运行。这一过程需要技术人员打开列车查找故障原因,然后去取回备件和工具,再返回进行维修。
结果对维修时间和延迟都有很大的影响。列车上一扇损坏的门会导致两站之间的运行时间增加10~15秒。经过20站之后,列车已经晚点五分钟,当天的整个行程都被推迟了。西门子现在监测每列列车的车门,能够在出现故障之前发现潜在的问题。
Kress说:“如果Thameslink的门有问题,在某些情况下,我们可以提前一个半星期发现这些问题。
然后技术人员可以去查看那个车厢右边的五号门,他们走到那里,检查一下,在那里放些润滑油,然后再次启动,不会再出现故障了。”
西门子还为欧洲之星列车提供维修服务,这些列车传统上使用的传感器会发出故障警报,并强制停车。然而,这些传感器本身容易出现故障。
Kress回忆说:“几年前出现过这种事,当时我们部门还不存在,我们不得不撤离在轨道上工作的700人。
一年前也有过同样的情况,看起来非常相似。我们首先意识到,这是一个传感器问题。现在我们有信心,在列车出现这一问题的一个半星期之前,我们就能发现它。我们可以对操作人员说,你应该把车厢那边轴承上的传感器换了,他们就这样做了,对操作没有任何干扰。”
为什么是Teradata?
Kress说;“Teradata是市场上唯一一家知道这个世界不仅仅是一个数据仓库的公司。Teradata有竞争,但鉴于我们的数据结构,我们需要一个能完成更多任务的系统,所以UDA对我们来说是最主要的。”
西门子采用了组合框架,包括Apache Spark和TensorFlow,为每一项分析任务开发了具体的机器学习方法。鼓励在单独和安全的工作环境中使用这些模型进行实验。
Kress说;“我们要创建的分析模型是一个沙箱,数据科学家可以使用这些数据来识别模型的结构。一旦确定了结构,我们会把模型投入使用,那么我们就有了一个经典的三层架构,即开发、测试和实施。”
这一连续的集成和部署过程使用了相同的底层数据湖,所以即使科学家在沙箱中,他们也可以看到存在的所有数据,知道怎样组合数据点以获得他们所需的深度分析结果。这一创造性的过程产生了一种可以在铁路监测中连续实施的分析模型。
西门子在其铁路服务中,每秒采集大约5万多个数据点,并且需要长时间存储数据。在部署模型时,由于西门子分析工作负载非常复杂而且多样,因此,必须采用Teradata。
Kress说:“我必须平衡所有这些不同的工作负载,让系统保持稳定。如果我在Hadoop上这样做,我的一名员工会提交很多工作负载,接下来的两天客户不会得到任何回应。这是不能接受的。”