数据标准化在煤矿数据分析系统中的应用

2018-11-22 10:51王宪薛军
中国科技纵横 2018年20期
关键词:综采工作面数据分析

王宪 薛军

摘 要:神东煤炭分公司早在2015年就制定了《矿山机电设备通信接口和协议》企业标准,规定了矿山机电设备的工业以太网通信EtherNet/IP接口和协议的术语、定义、规约。数据分析系统在数据标准化的基础上开展综采工作面主要设备的数据运行监测、数据分析等工作,通过数据标准化的应用,建立综采工作面设备综合评价指标对照,为设备管理工作提供参考依据。

关键词:数据标准化;综采工作面;数据分析

中图分类号:TD76 文献标识码:A 文章编号:1671-2064(2018)20-0170-02

1 数据标准

数据标准化是数据分析的基础,也是开展数据分析工作的前提,神东煤炭分公司早在2015年就制定了《矿山机电设备通信接口和协议》企业标准,规定了矿山机电设备的工业以太网通信EtherNet/IP接口和协议的术语、定义、规约,标准主要包括以太网EtherNet/IP协议规范总则,扩展对象库,采煤机、液压支架、馈电开关等10类主要设备行规,按照GB/T 1.1-2009给出的规则起草。

矿山机电设备通信接口和协议》企业标准EtherNet/IP协议和OSI参考模型(如图1所示),采用ODVA:CIP网络图书馆-第1卷:通用工况协议和ODVA,CIP网络图书馆-第1卷:CIP的以太网/IP适配,构成特定的EtherNet/IP通信规约的一般规则。

OSI参考模型包括物理层、数据链路层、网络层、传输层、会话层、表示层、应用层共7个层级,在具体实施过程中遵循以下要求:

1.1 物理层要求

物理层作为设备之间的数据通信提供传输媒体及互连设备,为数据传输提供可靠的环境。煤矿设备受矿井环境及干扰因素影响较大,设备移动性较强,物理层采用有线接口、无线接口两种模式互补,提高可靠性,其中有线接口采用快速以太网技术,数据速率可以达到100Mbps,支持使用屏蔽或非屏蔽铜双绞线(Cat 5)和光缆,满足下列标准:

(1)100BASE-TX,銅介质双绞线符合MT 818.14-1999的规定。(2)100BASE-FX,光纤符合MT 818.14-1999的规定。

综采工作面采煤机、液压支架多采用无线接口,满足下列标准:

3G CDMA 2000:满足国际标准3GPP2 C.S0002-E-v2.0;

物理层的功能是在两个网络设备之间提供透明的比特流传输,所实现的硬件设备有中继器和集线器,物理层有线网络的拓扑包含星形拓扑、线形拓扑、环形拓扑,用于煤矿井下的EtherNet/IP通信应在下列条件下正常工作:(1)环境温度:0℃~40℃;(2)平均相对湿度:不大于95%(+25℃);(3)大气压力:80 kPa~106 kPa;(4)有爆炸性气体混合物,无破坏绝缘的腐蚀性气体。

1.2 数据链路层

数据链路层位于OSI参考模型的第二层,数据链路层通过一些数据链路层协议,在不太可靠的物理链路上实现可靠的数据传输,主要功能是为网络层提供服务,包括无确认的无连接服务、有确认的无连接服务、有确认的面向连接的服务三种基本服务。其中有线通信的数据链路满足IEEE802.3规范,支持10Mbps、100Mbps及更高速率,无线通信3G CDMA2000的数据链路满足国际标准3GPP2 C.S0003-F-v2.0,3GPP2 C.S0004-E-v2.0,3GPP2 C.S0017-010-0-v3.0。

1.3 网络层与传输层

网络层位于TCP/IP协议栈数据链路层和传输层中间,网络层接收传输层的数据报文,分段为合适的大小,用IP报文头部封装,交给数据链路层。企业网络层与传输层标准满足ODVA:CIP网络图书馆-第2卷:CIP的以太网/IP适配中9-3,ODVA:CIP网络图书馆-第1卷:通用工业协议的要求。具备如下功能:

(1)信源到信宿的传输。通过多条物理链路连接成的传输路径将一个数据分组从源结点传输到目的结点。并为传输层提供了完整的服务,传输层不必关心两结点之间传输信息的具体细节。(2)逻辑寻址。在数据分组的头部加入源地址和目的地址。(3)路由。当有多条路径可选时,选择从源结点到目的结点传送数据分组的最佳路径。在这种情况下,每个数据分组可以经过不同的路由到达目的地,然后在目的地按照原始顺序重新组装。路由所考虑的因素包括传送速率、费用和在传输种改变路径的能力。(4)地址转换。将网络层地址翻译成对应的物理地址或将物理地址转换成对应的网络层地址。(5)复用。使用同一条物理线路同时传输多个设备间的数据。(6)流量和拥塞控制。一个路由可能产生巨大的通信量,从而使路由上的某些结点超负荷工作,由此导致的拥塞经常使某些分组信息被丢弃。网络层协议必须能够在部分报文丢失时通知发送方,调节发送的流量。(7)网络互连。发送端和接收端结点可能不在一个网络内,要成功实现端对端的传送,必须解决网络互连的有关问题。

1.4 表示层和应用层

网络应用通过端系统上运行的应用程序来实现。为了实现每一种网络应用,通信双方都必须按照双方都能够理解的规范交换或处理数据,也称为网络应用协议。应用协议包括通信双方请求或响应服务的信息格式、控制命令和所传数据信息的说明等。如超文本传输协议HTTP,是Web服务器与客户浏览器之间交换信息的协议;域名系统DNS,定义了客户端向域名服务器请求域名解析服务的信息交换规范;文件传输协议FTP,定义了请求文件的客户端从提供文件的服务器获取文件操作规范等,企业表示层和应用层标准满足ODVA:CIP网络图书馆-第1卷:通用工业协议和ODVA:CIP网络图书馆-第2卷:CIP的以太网/IP适配。

2 数据标准的应用

数据分析系统在建设初期存在数据量大、数据关联性差、如何进行预筛选等问题。

数据量大。区域自动化四矿大柳塔矿、补连塔矿、上湾矿和哈拉沟矿合计监测169600点,而全公司13个矿井总计监测超过450000点,且随着综采工作面的推进,测点逐年增加。

数据相关性差。神东有信息化系统40多个,数据分析系统涉及到的主要系统有5个,系统间实现端对端集成,数据共享度不高,整合难度大,需要整体统筹计划。

数据预筛选难度大。数据分析系统数据源包括三部分:综合自动化系统(综采、主运、通风、供排水、供电)、PM、CMES系统,其中PM、CMES系统可通过数据接口实现数据源的同步,综合自动化系统要获取数据需按照四步走,第一,从综合自动化组态软件中检索点表;第二,将检索点表导入到数据分析及健康管理系统数据库中;第三,配置监测画面点位;第四,配置数据分析报表点位。导致数据更新和维护环节多、工作量大、易出错,且对人员专业性要求较高。

通过数据标准的应用可集中解决数据量大、相关性差及数据预筛选难度大等问题,为开展数据分析系统的各项工作提供统一規范,数据分析系统主要对综采工作面五种主要设备开展综合分析工作,包括采煤机、液压支架、刮板机等设备的电压、电流、功率等数据,首先对该类数据进行标准化转换,转换的主要目的是将数据按照比例进行缩放,使之落入一个小的区间范围之内,使得不同的变量经过标准化处理后可以由平等分析和比较的基础。

企业数据标准应用采用ODVA:CIP网络图书馆-第1卷:通用工业协议的AppendixC-2中所述的数据类型,包括基本数据类型和扩展数据类型(主要指传感器数据类型)。

2.1 数据标准化处理

采用Min-max标准化,也叫离差标准化,是对原始数据进行线性变换,使得结果在[0,1]区间,为数据预筛选做好准备,转换公式如下:

x*=

其中,max为样本数据的最大值,min为样本数据的最小值。

在数据标准化应用过程中,参与聚类的变量绝大多数都是区间型变量,不同区间型变量之间的数量单位不同,如果不加处理直接进行聚类,很容易造成聚类结果的失真。比如电流单位有的是A,有的是KA;变量的单位越小,变量可能的值域就越大,对聚类结果的影响也就越大。为了避免对度量单位的选择依赖,在聚类之前所要采取的一个重要的技术措施就是进行数据标准化。

2.2 数据预筛选

数据预筛选直接影响数据的清洗、整理、探索等数据处理工作,而筛选有效的输入变量更能提高数据质量,具体体现在三个需要。一是筛选有效的输入变量是提高模型稳定性的需要。过多的输入变量很可能会带来干扰和过拟合等问题,这会导致模型的稳定性下降,模型的效果变差。所以,优质的模型一定是遵循输入变量少而精原则的。二是筛选有效的输入变量是提高模型预测能力的需要。过多地输入变量会产生共线性问题,所谓共线性是指自变量之间存在较强的,甚至完全的线性相关性。当自变量之间高度相关时,数据的小小变化,比如误差的发生都会引起模型参数严重震荡,明显降低模型的预测能力,并且,共线性的发生也增加了对模型结果的解释困难,因为要更深入地分析和判断每个自变量对目标变量的影响程度。三是筛选有效的输入变量也是提高运算速度和运算效率的需要。在采取各种评价指标筛选有价值的输入变量之前,可以先直接删除明显的无价值的变量,这些明显的无价值变量包括的内容如下:常数变量或者只有一个值的变量。缺失值比例很高的变量,比如缺失值高达95%,或者视具体业务背景而定。取值太泛的类别型变量,最常见的例子就是邮政编码,除非采取进一步措施将各个地区的编码整合,减少类别的数量,否则原始的邮政编码数据无法作为输入变量来提供起码的预测功能。

2.3 数据相关性研究

根据2017年64个工作面月报数据,对月产量、采高、工作面储量、容重、平均夹矸厚度等25个相关量进行多元线性回归分析,根据分析结果分为两类:一是月产量、采高、普氏系数、月推进度等直接参与计算的相关量(图2);二是工作面储量、夹矸厚度等弱相关量,基于原始数据得出预测曲线,将预测曲线与实测进行相关性分析(图3),具体结果如下:

第一类:开机率=(0.003765)*月产量+(0.850363)*容重+(0.007413)*普氏硬度+(0.000363)*大修次数+(-0.000022)*功率+(0.000268)*月累计推进度+(-0.812831)

第二类:开机率=(0.000046)*工作面储量+(-0.177576)*平均夹矸厚度+(-0.000053)*配套天数+(0.363765)*寿命年限+(0.380474)*新旧度系数+(-3.490963)

结论:第一类回归分析方法较简洁,第二类回归分析方法较理想,两种曲线相关系数较高,为0.66左右(理想状态为1),月报中开机率可以采用第一类和第二类回归分析方法进行开机率预测,并与实际开机率进行校验。

3 结语

随着煤矿信息化水平的提高,数字化、智能化矿山是未来煤炭发展的方向,而从电气化到数字化乃至智能化发展的基础是煤矿信息化数据标准化,所以数据标准化是一项长期而艰巨的任务,下一步我们将充分利用数据上传、在线监测、数据分析等信息化手段,加强对各单位检修时间监控,针对电气类故障制定企业标准,按照定义故障、收集故障、分析故障原因、建立故障排除计划、执行故障排除计划、分析结果的流程形成故障管理体系。

煤矿数据分析势必通过内网、外网交互运行实现,必然会收到病毒的入侵、黑客的攻击等不安全因素,这些因素会造成井下自动化系统及监测环境的安全隐患,导致信息泄露或病毒感染,亟需制定相关的企业安全标准,当然随着煤矿信息化的发展及物联网技术的发展,与之相关的标准将会进一步优化和完善。

猜你喜欢
综采工作面数据分析
综采工作面过空巷技术研究
综采工作面水害分析及防治水实践探析
浅析大数据时代对企业营销模式的影响