混凝土泵送机械大数据挖掘与应用

2018-08-15 05:50赵鑫吴德志周志忠
大数据 2018年4期
关键词:设备分析信息

赵鑫,吴德志,周志忠

1. 中联重科股份有限公司,湖南 长沙 410205; 2. 国家混凝土机械工程技术研究中心,湖南 长沙 410205

1 引言

由于信息技术、网络技术、通信技术的发展,实时的、大批量的数据传输成为现实,智能数据分析在对海量科学数据的处理中变得越来越普遍[1]。大数据是信息技术(IT)产业的又一次颠覆性技术革命,它的产生满足了实时海量数据采集后的存储、操作、管理和可视化的需求,大数据将重点运用于商业决策、政府决策和公共服务三大领域。目前大数据的应用也逐渐从互联网走向了智慧城市、智慧医疗、智能电网及工业领域,互联网以其开放、自治与共享的理念,正在不断与社会各个领域结合,带动生产和社会的巨大进步[2]。大数据可以对民族发展、产业升级换代、科学发展、跨学科研究、预测未来等方面产生巨大的影响[3]。

新一代信息通信技术的发展驱动制造业迈向转型升级的新阶段——数据驱动的新阶段,这是新的技术条件下制造业生产全流程、全产业链、产品全生命周期数据可获取、可分析、可执行的必然结果[4]。工业大数据技术是使工业大数据中所蕴含的价值得以挖掘和展示的一系列的技术与方法,包括数据采集、预处理、存储、分析挖掘、可视化和智能控制等[5]。工程机械设备是社会基础建设的“晴雨表”,工程机械物联网大数据可以印证整体经济数据走强和工程开工率提升,对宏观决策很有帮助。据统计,目前中国前3位的工程机械企业的设备保有量均超过15万台[6],每天设备的生产、位置、施工、故障信息等会实时传输到各自企业的云平台,通过云平台的数据采集、存储和分析,可以实时得出设备的生产、库存、开工率、开工时间、区域开工热度、潜在市场需求分析、故障统计分析等数据,通过设备数据分析和研究,可以实现中国市场宏观分析、市场需求分析、企业生产指导、企业质量提升等。混凝土机械作为工程机械的一种,是国家基础施工、高铁建设、隧道建设等的重要保证,了解混凝土机械的施工大数据特点,同样对混凝土机械的提升有巨大的推进作用。

大数据的定义很多,比较有代表性的是3V定义,大数据满足3个特点:规模性(volume)、多样性(variety)和高速性(velocity)。泵送机械大数据的特点符合典型大数据特征且有自身的特点:数据量大;数据多样化,设备上传数据包括视频、图片、地理位置信息等多类型数据;数据价值密度低,虽然设备上传的数据多,但是需要长时间的分析才能挖掘,信息量大,但是价值信息密度低;数据在线性,设备施工过程中数据实时传输,故障信息需要实时解析。泵送机械大数据面临诸多方面的挑战,根本挑战在于其复杂性、不确定性和涌现性[7]。

本文针对目前混凝土泵送机械设备大数据的技术现状、关键问题和面临的技术挑战,介绍了目前混凝土设备的特点、数据传输结构、大数据分析关键技术、大数据架构设计、大数据分析应用和预测,从而对宏观分析、营销市场分析、配件市场等的决策起到辅助作用。

2 混凝土机械特点及数据传输结构

2.1 混凝土机械特点

混凝土机械包括混凝土泵车、搅拌车、拖泵、搅拌站等,搅拌站是混凝土生产的设备,搅拌车是混凝土运输的设备,泵车、拖泵是泵送混凝土到施工地点的设备。本文以混凝土泵车为例进行整体介绍和大数据分析研究。

混凝土泵车是一种用于输送和浇筑混凝土的工程机械设备[8],由泵送系统、臂架系统、底架系统等组成,其中泵送系统是泵送混凝土的装置,包括泵送机构、分配机构和搅拌机构,如图1所示。臂架系统是输送混凝土的装置,通过不同系统的协同,实现对混凝土的输送,从而实现对公路、铁路、水利等基础设置的建设。混凝土机械具有施工时间长、能在恶劣环境下施工等特点,是国家基础建设的根本设备。

2.2 数据源及其特点

图1 混凝土泵车设备及其泵送系统

图2 数据传输流程

数据获取是重要的环节,数据的准确采集是大数据采集的关键。目前大数据的主要来源包括:商业数据、互联网数据和物联网数据。本文的大数据主要是针对设备的物联网数据、GPS数据和针对企业内部软件企业资源规划(enterprise resource planning,ERP)、企业管理解决方案(systems applications and products,SAP)等的商业数据。

由于混凝土泵送机械特殊的结构特点,一般采用的数据来源有以下几个。

● 设备底盘传输的数据。如底盘发动机数据(发动机转速、燃油消耗、发动机总工作时间)和底盘其他数据(车速、燃油油位、系统电压)等。

● 设备本身的传感器数据。根据工程机械智能化的发展趋势,越来越多的传感装置得到应用,如压力传感器、位移传感器、角度传感器、视频/音频传感器、振动传感器、控制器、GPS行驶记录仪等。

● 企业ERP、SAP、客户关系管理(customer relationship management,CRM)系统的数据。

数据传输的过程包括:数据获取、数据传输、数据清洗、数据变换。数据传输流程如图2所示。

2.3 数据的获取和传输

工程机械的大数据可以根据数据类型进行区别获取,结构化数据采用系统日志采集的方法获取,非结构化的数据可以通过将元数据标签附加到非结构化数据上,使非结构化数据与结构化数据进行集成处理;企业特定系统(如CRM等)的数据可通过开放相关接口获取。

由于设备的移动工作属性,车辆的工况数据、位置信息等通过车载GPS终端、移动网络进行传输;视频音频等非结构化数据首先通过Wi-Fi与当地服务器连接,然后通过互联网传输到企业大数据平台;企业运营数据则直接通过接口传输到大数据平台,然后由大数据平台对所有数据进行汇总和存储。

2.4 数据的清洗和变换

数据传输到大数据平台后,需要对其进行预处理,数据预处理的方法包括数据清洗、数据集成、数据变换等。工程机械的数据预处理主要是对数据进行清洗,即对数据进行解析、规整和处理:对数据噪声、空白值或异常数据进行分析判断,通过阈值算法、合理空间设定算法等进行排查和分析,实现数据的初步清洗,然后对清洗后的数据进行变换解析,得出可以用于分析的数据。由于工况数据的多样性,对数据进行去噪处理、数据聚集和数据规范化处理非常重要。

3 混凝土机械大数据分析关键技术

混凝土机械大数据展示需要多种技术的协同,文件系统提供存储能力的支持,索引系统提供高效的数据查询,数据分析系统提供模型构建、算法研究等,可视化系统将分析结果进行视觉表现形式的展示,驱动各种业务的发展。同时基于工程机械施工的特点,对于设备类型、特征属性需要利用设备码识别技术,以保证准确识别不同类型的设备及其关键配置信息,保证数据不同维度区分的准确性。

3.1 设备码识别技术

每一台出厂的混凝土机械设备,无论是泵车、搅拌车、搅拌站、车载泵等,都有一个识别的代码,以便于区分。同时还要对某种设备的自身属性进行区分,如泵车的臂架长度(如23 m、40 m、49 m、56 m、63 m)是区分泵车施工能力的关键指标;泵车搭载的底盘类型(如奔驰、五十铃、解放底盘等)可以对不同类型进行区别分析;还有产品程序版本信息、产品中高端版本信息、配置信息等。在大数据分析的基础上,通过正确地设置这些基本信息,可以准确识别出不同设备的特征、结构,从而可以进行正确、有效的数据分析。

对工程机械企业进行大数据分析时,正确识别设备码是基础。出厂前对每台设备进行有效的把控,不仅能提升产品质量,同时对数据资产的获取也起到很大的作用。

3.2 大数据算法研究技术

由于数据种类多、数量质量不统一等原因,如果将所有的数据聚集在一起,而不做任何处理,会产生很多的无用数据干扰大数据的分析和决策。因此,数据分析是大数据价值链最后的也是最重要的阶段,是大数据价值的体现和大数据应用的基础[9]。大数据算法是影响大数据分析结果准确性的关键。

大数据分析的理论核心是数据算法,算法研究既要考虑数据量也要考虑处理速度。很多传统的数据分析方法也可以应用到大数据分析中:聚类分析方法是划分对象的统计学方法[10];因子分析方法是用典型的因子描述许多指标或因素之间的联系[11];相关分析方法是测定事务之间的相关关系的规律性[12];数据挖掘方法是实现一些高级别的数据分析需求等[13]。但是在处理大规模数据集、非结构化数据时,处理效率无法达到预期。目前许多领域的研究是在分布式计算框架上对现有数据挖掘理论加以改进,进行并行化和分布式的处理[1]。

数据算法要面对TB级以上的建模能力,需要构建可扩展性大数据挖掘算法,要确保在大数据分析、处理过程中的数据安全及隐私不被泄露等,同时构建分布式工作流引擎,保证负载均衡。

3.3 大数据可视化技术

作为解释大量数据最有效的手段之一,可视化率先被科学与工程计算领域采用[14]。数据可视化可以非常直观地呈现大数据的特点,帮助人们分析大规模、多来源、高维度、实时变化的信息,并可以提供辅助的实时决策支持。为了提升数据解释、展示能力,现在大部分企业都引入了数据可视化技术,可视化结果可以形象地向用户展示数据分析结果,更方便用户对结果的理解和接收[15]。大数据可视化具有实时性、操作简易性、丰富展现性、多数据集成支持性等特性。目前数据分析常见的柱状图、饼图、直方图只能呈现基本的信息,对于复杂的结构化、非结构化数据,数据可视化的流程非常复杂,具体实现流程如图3所示。

大数据可视化技术的实施,可以对工程机械生产数据、设备的分布区域、施工地点、施工时长、故障诊断、售后服务等进行可视化展示,为公司的生产、技术、营销和售后提供数据支撑。通过数据化管理,还可以进行潜在市场分析、故障动态预警、施工趋势分析、施工活力图分析等。

图3 大数据可视化实现的流程

4 面向工程机械应用的大数据架构设计

如何根据不同的工程机械大数据分析需求设计出稳定的架构,以满足日益变化的需求变更和产品数量的扩张,是工程机械大数据方法论及其关键技术分析和研究的重点[16]。本文基于数据采集、数据传输、数据存储和计算、数据应用4个层面进行了敏捷大数据架构设计。该架构可以解决各类数据格式不统一、数据量和采样频率差异大等问题,实现各种数据采集;突破了海量数据存储及快速计算,实现数据高效管理,基于Hadoop分布式文件系统实现数据高效的管理和存储,采用具有可伸缩性、基于内存计算的Spark并行分布式计算框架实现数据挖掘与机器学习等算法,最终可实现工程机械数据的采集、存储、管理及数据清洗、数据转换、数据显示、数据应用。其总体架构设计如图4所示。

4.1 数据采集

采集的数据可分为3种类型:设备采集的工况、地理位置数据,设备上安装的压力、位移、液位等传感器数据,GPS采集的定位轨迹数据;生产、销售等系统的数据库,结构化和非结构化数据,根据射频识别(RFID)终端识别的设备生产过程产生的数据,销售产生的客户数据;互联网数据采集,包括环境数据、原材料数据、大规模建设、房地产开发等数据,根据爬虫技术获取的互联网、行业公共数据等。采集的数据需要进行提取、转换、清洗和隐私脱敏等处理。数据采集后通过传输通道进行传输[10]。

图4 混凝土机械大数据分析总体架构设计

4.2 数据处理

大数据中蕴含的宝贵价值是人们存储和处理大数据的驱动力,目前人们对大数据的处理主要是对静态数据的批处理、对在线数据的实时处理以及对图像数据的综合处理[17]。由于混凝土泵送设备的特殊性,设备销售后大部分时间在当地施工,传感器采集的数据通过GPS、3G/4G/Wi-Fi进行传输,同时其他工况数据通过互联网进行传输,统一将数据传输到大数据平台。数据存储采用分布式云存储系统,存储后进行处理。大数据的应用类型有很多,主要有流处理(stream processing)和批处理(batch processing)两种处理方式。

本文根据数据的传输频率,采用两种模式结合的方式,其中毫秒、秒级数据采用流处理方式,其他数据采用批处理方式。对采集设备的位置信息、工况信息、环境信息、数据库信息等进行算法挖掘时,要考虑算法的可扩展性。其中对工程机械产生的数据进行处理的方法如下。

● 地理位置信息数据清洗,根据合理行驶速度区间,将设备的位置信息限定在合理的行驶地理区间内,处理异常地理位置信息,保证车辆位置信息准确。

● 工况信息会出现空值、重复、丢失等情况,通过过滤、筛选及冗余传输等策略,实现工况数据实时准确传输,保证信息准确。

● 其他信息还需要采用容错性、水平扩展等措施进行数据分析处理。

4.3 数据应用

数据采集后,通过云存储、建模、算法研究和分析,可以被转换为图形化数据。数据应用层首先要满足泵送设备的大数据分析需求,包括位置信息和工况信息可视化查询、展示、趋势预测等,分析的结果可以对应用起到决策支撑的作用。

5 大数据应用和预测

本文以笔者单位生产的混凝土泵送设备为例,着重从订单数据、生产类数据、工况数据、故障数据、地理位置数据等方面分析数据,挖掘数据价值。

● 通过将订单数据与生产数据、库存数据进行实时对比分析,调配设备库存及生产情况。

● 通过对区域施工热度进行分析,实现全国、省、市三级开工热度分析及未来施工预测,并对施工热度上升、下降趋势明显的区域进行预警,防止生产短缺,保证及时备货,同时防止生产过剩,造成产品呆滞。

● 通过分析所有设备的施工情况,建立动态维护保养预警模型,实现主动维护保养和配件销售、驱动精准服务的要求。

● 通过分析区域施工位置及市场热度,实时指导客户对区域市场的把控,了解市场行情,指导后期经营活动。

● 故障统计分析和预测,通过故障数据、实时工况数据监控,实现对关键元器件质量的把控,同时通过故障预测模型进行预测分析,调整控制参数。

● 通过数据驱动整体实现数据对营销、服务、研发、客户等领域的数据指导,并对未来变化趋势做出预测,为客户、企业管理者战略决策提供数据支撑。

5.1 需求订单量与生产进度、仓储情况匹配

数据源为CRM系统订单数据(设备型号、配置等)、客户信用等级数据、客户所属区域施工总量市场数据、实时生产数据、库存数据、发货时间等。CRM系统会实时更新潜在客户的需求数据、已下订单数据;实时生产数据包括设备的下料、物料的搬运,结构焊接,设备装配,整车的涂装;设备入库后,实时更新设备库存数量、时间、发出数量、未来n天的发货计划等,生产过程的数据量为5~10 GB/天。

订单成交率指数:全国的营销人员会填写所有潜在客户的信息,包括客户实际需求型号、配置、分期付款等,分期付款客户系统自动匹配计算出订单成交系数,分别为以下几个。

● 老客户根据月活跃天数、日施工时间、最近施工时间3个参数对客户信用等级进行评价,再使用归一化法将参数映射到[0,1],设参数为A1,新客户A1=0.5。

● 银行信用系统整体上对客户的综合评价记为A2,没有评价信息时,A2=0.5。

● 对该订单所在区域整体施工总量值排名,依据五分位法设定区域施工系数A3。

依据以上系数,预测整体订单数量,并实时结合正在生产的设备数量、型号及设备库存数据情况,合理安排生产情况和设备备货情况,保证订单与设备生产相关联,保证产品销售。

将全国所有销售业务数据与生产、库存数据相关联,建立动态模型,实现了订单预测、生产全过程实时监控和分析;仓储实时监控,建立动态闭环,保证了设备生产,同时避免了产能过剩和产能不足的发生。业务驱动市场极大地提升了智能工厂的生产效率,实现了业务到生产的数据融合,促进了企业发展。图5为订单与生产流程,图6为设备库存数据。

5.2 区域热度分析

(1)数据源

数据源为施工数据(施工方量、施工时间),包括设备月施工天数、单次施工时间、最近的施工时间。按照设备施工数据5 MB/天的数据传输量、日平均施工设备5 000台计算,日数据量约为24 GB。

(2)区域施工热区预测

利用设备的日施工时间、月施工次数、单次施工时间、日施工总量增量斜率等多个变量建立施工预测模型,各个数据采用正态分布分析法,得出设备施工的概率分布,同时对设备数据进行横向、纵向分析、多元回归分析等,实现区域热度的预测。

通过分析设备某段时间的位置分布及整体施工数据,可以得出某一个月设备的开工热度。

图5 订单与生产流程

图6 依据订单数据实现的库存设备数据

通过总量、平均量分析法、增量斜率分析法和地理位置映射方法,可获取全国、各个省市的总的施工量、单台设备平均施工数据和施工增量斜率。图7为2017年全国混凝土泵送设备的月施工图,通过分析可以得出:施工总数与施工台数相关性较强,2月份施工量全年最低,整体上施工热度在4~10月份;平均每台施工方量趋势大体一致,7、8月份由于天气原因施工总量略有下降,11月份以后东北和西北地区施工总量和开工台数下降明显,与气候和温度关联较大。

通过地理位置映射的方法,分析不同省、市的施工情况,并对未来全国、省、市的施工情况进行预测,提供整体的宏观分析和区域热度分析的指数模型,具有重要意义。

5.3 精准服务分析

图7 2017年设备施工量统计

数据源为客户信息、维护保养信息、设备地理位置信息、设备工作时间。数据量包含在第5.2节施工数据中。采用动态关联算法,目前所有的设备档案信息都有详细的服务记录,将单台设备施工数据与设备维护保养数据结合,可实现精准服务。传统的服务靠服务工程师在保养后记录,再根据大概的时间(如1年)进行保养提醒,或者客户提出对设备保养的需求时才进行,没有考虑设备实际的施工情况,因此这样的保养不准确,且无法做到需求预测、提前备货等。

正常情况下,泵送机械底盘、润滑油、易损件(眼镜板、切割环、活塞、S管等)、结构件等的保养都与施工方量、施工时间等相关,通过将CRM系统客户设备维护保养信息进行更新维护,可实时获取设备最新状态,根据方量和施工时间信息进行累加,实现精准服务。通过以上数据,建立维护保养、设备保养预测、零配件销售、当地零配件库仓储的动态关联系统,建立维护保养库,将设备的维护保养数据转化成同一个时间维度,即进行时间的标准化。将服务数据映射到时间上,通过添加施工方量、施工时间数据维度,设定维护保养报警阈值、实际实施阈值等。根据设备实际施工数据反馈,当触发阈值时,将信息映射到时间维度,实施相关零配件的备货处理、主动服务沟通和相关零配件的主动销售。本模型采用零配件需求数据逻辑分类、需求决策树模型,实现数据驱动服务的转型。根据数据互联互通和动态反馈,实时修正阈值设定,维护保养及零配件需求预测准确率大于80%。图8为3款设备目前的施工方量区间统计。

5.4 数据支撑支持市场

数据源为设备地理位置信息、设备施工信息。设备每在一个地方施工,该施工点就会作为热度点在地图上映射,根据长时间的数据分析和跟踪,并实时更新,可以得出全国所有地区的施工地点和施工热度。

采用聚类分析法、判别分析法对开工热度点进行判别和分析,从而实时聚焦开工热度区域,并实时累计叠加,建立全国、省、市的热度可视化系统,并得出热门施工区域。该数据支撑市场系统对指导市场和客户、把控区域市场情况起到很好的作用。

5.5 故障预警分析

数据源为设备回传故障数据、CRM系统中客户设备实际发生故障、设备工况数据(如压力、液压油温等)。故障数据为触发数据,数据量较小;工况数据实时性要求高,设备数据量参考第5.2节。

故障预警分析主要采用统计学、故障模型预测算法。设备拥有故障自诊断信息,设备一旦施工,任何故障信息都会实时传输到大数据平台,通过分析一段时间内泵车的所有故障数据,可以对关键技术可靠性、关键传感器稳定性、GPS的故障率等进行统计分析,同时可基于实时回传的工况数据,建立故障预测模型,如可以通过泵送压力、持续时间、发动机转速等建立泵送防堵管的模型,实时预测泵送设备的泵送性能,并根据预测结果调整控制参数,保证故障自适应解决。根据故障处理问题,建立故障预测和故障解决知识库,为故障的快速解决提供数据分析和指导。

6 结束语

图8 3款泵车施工方量区间统计

本文提出混凝土泵送设备的特点和大数据发展情况,分析了混凝土机械特点及数据传输结构。通过关键技术分析,构建了大数据平台的架构;通过大数据的分析和应用,可以在设备生产、仓储、销售、服务等多个方面提供数据支撑,为工程机械企业的决策提供有效的数据支撑,并为企业在大数据时代的发展提供方法论。目前,工程机械大数据应用仍然面临诸多挑战,不同工程机械企业间难以共享,数据缺乏统一的接口和平台,还有某些关键工况数据依然必须依赖可靠性高、费用昂贵的传感设备等。随着科技的发展和进步、工程机械设备数据获取和大数据技术的深入结合,工程机械设备的应用将会使国家和相关行业实时了解设备动态、宏观开工情况、区域活跃指数等,从而实现宏观分析和调控,为制定合理的产业政策,保证国家、行业、公司有序健康发展提供助力。

猜你喜欢
设备分析信息
谐响应分析在设备减振中的应用
隐蔽失效适航要求符合性验证分析
电力系统不平衡分析
基于MPU6050简单控制设备
订阅信息
电力系统及其自动化发展趋势分析
500kV输变电设备运行维护探讨
展会信息
健康信息
健康信息(九则)