基于矿山数据集成的数据中心在东部某铜矿的设计与应用

2018-12-27 10:00韩海华李子龙单延健
山东工业技术 2018年23期
关键词:数据挖掘数据中心

韩海华 李子龙 单延健

摘 要:针对矿山数据发展现状的特点,以东部某铜矿为背景,阐述了基于矿山数据集成的数据中心的搭建过程。对数据中心需求进行分析,从软硬件构建基础到功能服务,重点分析数据中心的核心功能和隐性优势。从实际结果表明,数据中心是矿山数据发展中一个重要的方向和环节,将复杂、多类型的矿山数据统一归入数据中心后,不仅有效避免了数据的冗余存储,解决了新系统数据来源问题,而且提高了数据的利用率,为挖掘数据之间的隐性关系创造了基础条件,更好的利用数据指导生产。

关键词:矿山数据集成;数据中心;数据挖掘;数据应用

DOI:10.16640/j.cnki.37-1222/t.2018.23.085

東部某铜矿的生产数据处于数据孤岛状态,各系统间数据独立,数据共通性不足,使得各系统数据源无法共享,多系统共同使用某数据时,需要频繁多次录入,造成资源浪费,极大的增加了数据获取的成本,并且容易出现数据错误问题。数据作为铜矿各系统应用的关键环节,直接影响各系统是否能正常使用以及各系统功能结果的准确性。2018年7月该公司投资建设矿山数据中心,目前项目还在进行中,但已经实现多个重点系统之间的数据集成和应用,打破了数据孤岛的现状。

结合该矿山应用系统现状,以数据中心为核心数据库,通过系统基础生产数据同步推送的方案,实现各系统数据在数据中心的入库,然后针对需求,对数据中心存储的数据进行处理并预留对接接口,实现数据源数据同步至数据中心再推送到应用的数据流向过程。

1 数据中心需求分析

东部某铜矿有多套实时控制系统和管理信息系统急需进行数据集成,解决当前矿山业务管理上存在的瓶颈和痛点,如图1所示。结合数据特点,数据中心的功能需求有:(1)实现数据管理和多系统数据共享;(2)实现数据录入及解决多系统间无意义冗余;(3)提高数据利用率,对原有月度类数据追溯数据源;(4)实现矿山外部数据互通,为矿山上级集团及系统提供数据;(5)生产数据直接及间接关系挖掘;(6)数据中心应用界面,对处理后数据展示。

2 数据中心网络结构和硬件基础

2.1 数据中心网络结构设计

整个数据中心网络结构依附数据流向分类,可以概述为各系统级网络、数据中心网络两部分,两者通过矿山内网进行互通,采用http协议进行数据通讯。以数据中心为网络的中心,连通数据中心及下级的各系统级网络通讯,且各系统级网络直接立足于各系统数据库所在服务器,保证服务器网络通讯的的情况下,各自与数据中心通讯,一个系统数据库服务器网络故障不会对其他系统数据库服务器数据的通讯造成影响。

2.2 数据中心硬件设备

数据中心主服务器为一台CPU型号E5-2630,64G运行内存的服务器,用于接收各系统数据库所在服务器提供的数据,而各系统数据库所在服务器的型号及操作系统各不相同,处理能力及数据传输能力也不同,通过在各服务器部署同步软件,针对各服务器处理能力调试后,进行同步操作。

3 数据中心核心应用

数据中心的核心部分主要包括数据入库、数据处理、数据应用三方面,数据入库用于对各系统数据的存储,数据处理的作用是对数据按照需求进行加工,数据应用包括对基础数据及加工数据的应用以及数据对外输出。

3.1 数据入库

数据入库即对矿山各系统数据进行归档操作的过程,是数据中心数据的来源和基础,为数据处理和数据应用提供数据保障。为了保证数据的准确性与共享性,数据入库应该实现以下功能:

(1)各系统独立的数据入库过程。各系统数据的集成应该是相互独立的,某一系统的启停不能对其他系统的数据入库造成影响,数据入库的频率及时效性应根据各系统特点进行单独设计。

(2)数据中心存储结构的设计,要在全矿相关联的前提下,维持各系统数据的相对独立。

(3)数据入库要有一定的自我修复能力。要保证某系统维护、重启、断电等正常或突发状况后,数据不会出现漏传、错传现象,一般以时间标或递增的id作为续传的判断依据。

(4)数据入库要有一定无效数据检测功能。要对明显的无效数据及无效设备的数据进行甄别,并在数据抽取过程中初步过滤这些数据,减少无效数据对数据库的占用。

(5)数据入库要有一定重复数据检测功能。在同步数据过程中,抽取同步数据是由人为选择抽取的范围及频率的,当多个系统对同一类型数据进行存储,且无差别时,应选择其中一处进行抽取,减少数据冗余现象。

3.2 数据处理

数据处理即对入库的数据进行加工处理的过程,是数据中心中最关键的部分。要在数据处理的过程中找到全矿数据之间的关联性,对重复冗余数据进行合并,对有效数据进行加工等,是数据应用的基础,为对外数据接口及界面展示提供保障。数据处理主要包含数据归类统计处理、数据质量处理、数据二次加工存储以及数据挖掘四大类,下面将对四大类单独解释。

3.2.1 数据归类统计处理

数据归类统计处理主要解决数据归类问题,对整个矿山的数据统一整理后,综合考虑所属区域及类型进行分类,并对数据之间的关联关系进行确认。

如图4所示,我们将矿山数据类型大致划分了六大类,包括采场、选厂、能源、安环、水资源以及资源管理数据,各自主要内容包含如下:

(1)采场数据。即采矿场生产数据,主要包括采矿场所有设备的运行数据(如运行时间、台效、台时、可开动率等)以及产量数据(包括采剥量、辅助工作量、维修工作量等)。

(2)选厂数据。即选矿厂生产数据,主要包括选矿厂各类传感器自动采集数据,以DCS数据为最主要部分,并通过自动采集的数据及质检相关数据反算出设备运行台时、产出量及品位等数据。

(3)能源数据。即全矿能源消耗数据,主要是全矿的电力消耗,通过可自动采集的电表,获取矿山总进线及各支线每小时的耗电量及累计耗电量,在矿山成本预算中占有重要的地位。

(4)安环数据。即全矿安全排查数据,包括边坡安全监测、粉尘、污染物、水污染等各类安全监测数据。

(5)水资源数据。即生产水消耗数据,主要是水资源在生产过程中的损耗及水平衡情况,回水利用比例和新水比例对生产成本同样有很大的影响。

(6)资源管理数据。即全矿资源数据,主要包括固有类软、硬件资产及消耗类资源损耗及进出数据。硬件资产包括各类生产设备、过程设备、动力设备、网络设备等。软件资产包括企业的控制软件、信息化软件、OA软件等[1]。

六大类数据之间不存在隔离关系,互相之间有强相关性,主要通过时间关系进行关联,并对不同需求,在数据二次加工存储过程中,针对性选择六大类中的数据进行组合,对整个矿山生产产出情况、成本消耗情况及隐性产出及消耗进行计算。

3.2.2 数据质量处理

数据质量处理主要针对无效数据进行处理,对长期处于特定状态不发生变化的数据,如启停状态、运行信号等,采取数据变化存储不变不处理的方式进行存储,保证数据不失真不丢失重要节点的前提下,尽量缩减内存占用;对已知标准范围外的数据,如负数、大于最大功率、大于一天时长等明显不符合常规条件的数据,采取保存但不统计的方式进行处理,即数据存储于数据库内,在后续排错过程中可能应用,但在实际计算(如求均值、求极限等)过程中不作为参数计算。

3.2.3 数据二次加工存储

数据二次加工存储主要是在数据归类及数据质量处理的基础上,对基础数据进行明确的、有规则的加工计算并存储的过程,主要包括以下步骤:

(1)单一变量分析。明确单一变量所表述的含义及作用,并针对需求对不同变量进行归类,主要划分为状态量、累计量、实时量、控制变量、操作变量、系统变量等不同类数据。

(2)单一变量直接统计。在第一步明确单一变量类型基础上,根据业务需求,对需要统计的变量进行甄别统计,如累计量需要求小时累计、班累计、月累计、年累计等,根据不同矿山对报表需求的不同,进行统计。

(3)变量间接统计。在实际生产中需求对某些功能进行统计,如设备运转率、设备台效等,这些变量在实际生产中非常重要,但并没有直接的变量可供读取,这时需要根据业务,进行统计方法的设计,如运转率可以通过运行时间和工作时间进行计算,设备台效可以根据设备运行时间和处理量进行计算,且在没有单独的设备处理量时还需要根据其他条件进行处理量推算等,这些数據通过复杂的计算相互关联,任何一个值的变动都会对生产流程中的其他指标带来变动,对产品质量和生产效率产生影响[2]。

(4)二次加工数据存储。进行二次计算之前,对计算的结果要有清晰的认识,依据计算结果之间的关联方式方法以及时间区分等创建对应的存储表,进行数据存储,存储表应以满足数据输出及业务展示为基础。

3.2.4 数据挖掘

数据挖掘技术(Knowledge Discovery in Datebase, KKD) , 是一种新兴的信息处理技术, 它融汇了人工智能、模糊识别、模糊数学、数据库、数理统计等多种技术方法, 专门用于海量数据的处理, 从大量的、不完全的、有噪声的、模糊的、随机的数据集中, 提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识, 其目的是发现规律而不是验证假设[3]。

数据挖掘可以认为是更高层级的二次加工数据,与上述加工处理的区别主要是数据加工过程中没有明确的、有规则的加工过程和步骤,数据之间往往处于弱关联性,在实际操作中也处于弱相关,例采矿场给矿硬度变化对最终金属量的影响。

4 数据应用

数据应用主要分为服务应用和数据推送,包括数据中心平台本身的页面展示功能及对其他系统的数据对接接口,与其他系统的数据对接主要通过后台网络,页面展示则直接通过数据中心平台,对一些基础数据及关键的二次加工数据进行展示。

数据中心页面展示功能主要包括:

(1)采场、选厂、能源、安环、水资源、资源管理六大类数据关键数据的展示;

(2)矿山月度、年度报表;

(3)矿山小时、班组、月度生产数据。

5 总结

数据中心在某铜矿现场实行边开的边投入测试的方式,数据中心启用后,对数据管理和数据利用明显改善。

(1)生产中的工艺指标优劣可以更及时的查看,更加便捷的查看处理量、资源消耗情况。

(2)通过基础生产数据的波动,可以更及时的对设备做出诊断,对设备非正常运转情况可以更快更直观的进行判断。

(3)提供了一条信息传输的通道,提高了全矿生产情况传递的速度。

参考文献:

[1]周俊武,徐宁.智能选矿厂架构设计[J].自动化仪表,2016(37):

1-5.

[2]田庆梅,李国清,侯杰等.黄金矿山选矿生产信息管理系统设计与实现[J].有色金属(选矿部分),2015(04):75-79.

[3]舒正渝.浅谈数据挖掘技术及应用[J].中国西部科技,2010,9(05) :38-39.

猜你喜欢
数据挖掘数据中心
关于间接蒸发冷机组在数据中心中应用的节能分析
数据挖掘技术在内河航道维护管理中的应用研究
2018年数据中心支出创新高
北京科创新型云数据中心
2017第十届中国数据中心大会榜单
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
新一代数据中心建设有“书”可循
一本面向中高级读者的数据挖掘好书