陈 飞 任光华 戴 勇
(新疆维吾尔自治区特种设备检验研究院,乌鲁木齐 830011)
生物氧化提金是一种针对难处理金矿石的预处理技术,可以解决其他常规选冶技术因回收率过低而无法实现工业利用的低品位金矿选冶难题。生物氧化提金技术属新兴技术,提金率受工艺参数设定的影响波动较大。现有的对生物氧化提金工艺的研究主要集中在菌种的选育和培养[1~3]与单一工艺参数的恒值控制,鲜有对工艺参数的优化研究。
传统的工艺参数优化需要建立精确的数学模型,但由于生物氧化预处理过程具有强耦合性、强非线性和过程参数动态性能无法精确了解的特征,导致系统模型很难精确建立。而且在庞大的工艺历史数据库中隐含了大量可对提金工艺参数进行优化的知识数据,巨大的数据量也为人工分析带来了很大难度[4]。因此,传统的工艺参数优化方法在应用上受到很大约束。
数据挖掘技术作为一门新兴学科,能够在人工干预较少的情况下处理复杂的数据信息,并提取相关知识规则。笔者依据数据挖掘技术和关联规则理论,建立生物氧化预处理过程工艺参数优化的新方法,以适用于生物氧化预处理等流程工业工艺参数的优化。
笔者以某金矿生物氧化提金工艺为背景来研究工艺参数间的关联知识。工艺描述如下:先将矿石磨碎与水混合成浓度为18.5%的混合液,流入调浆池进行加药;之后进入氧化槽开始氧化分解,氧化槽共有6级,每一级氧化环境均不同,当细菌将硫及砷等元素完全“吞噬”后,隐含在矿石内的金就会暴露出来,为后面的氰化提金做准备。在生物氧化预处理过程中细菌的活性决定了氧化的效率,为了提高和保持细菌的活性,需要为细菌提供适宜的生存环境。通常的工艺条件为:pH值2.0~2.4,进风量1 550~1 600m3/h,温度40~43℃,生物氧化还原电位570~610mV。生物氧化还原电位可以衡量氧化效率,是参数优化的目标值。在进风量为1 550~1 600m3/h的情况下,影响细菌氧化速率的因素有矿浆浓度、磨矿细度、Fe3+浓度、培养基、水系、pH值、温度及进风量等,其中可控因素为温度、进风量和pH值,具体描述如下:
a. 温度是氧化预处理过程中比较重要的参数,合适的温度能够提高细菌的活性,但过高的温度却会杀死细菌,致使氧化预处理过程无法继续进行[5]。
b. 进风量影响氧化槽内好氧菌的活性,进风量太大不经济,而且会造成氧化槽内液面波动剧烈致使矿液溢出污染环境;进风量太小又保证不了细菌的需求,导致细菌活性降低。
c. 工艺参数pH值主要为细菌提供一个适宜的生存环境,合适的pH值能够大幅度地提高细菌的活性。
数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有用知识的过程。伴随着计算机技术在工业领域的大量应用,越来越多的现场数据被记录并保存下来;但是由于缺乏强有力的工具,对这些庞大数据的理解与分析已经超出了人的能力,因此这些数据库逐渐变成了“数据坟墓”[6]。数据挖掘技术的出现为解决这一问题指明了方向,其已逐渐成为决策者们从海量数据中提取有价值知识的强力工具。
数据挖掘的一般步骤如下:
a. 数据预处理。从数据库中提取和分析与任务相关的数据,并剔除异常数据。
b. 数据变换。将数据变换或统一成适合挖掘的形式。
c. 数据挖掘。数据挖掘技术的基本步骤,即使用智能方法提取数据模式。
d. 模式评估。依据某种兴趣度度量,识别表示知识的真正有用模式[7]。
2.2.1关联规则理论
关联规则就是从事务数据库、关系数据库和其他存储信息中的大量数据项集之间发现有趣的、频繁出现的模式、关联和相关性。
关联规则定义如下:设I={i1,i2,…,in}是所有项目的集合,D是所有事务的集合,每个事务T是一些项目的集合,T包含在I中,每个事务可以用唯一的标识符TID表示。设集合X为某些项目的集合,如果X⊆T,则称事务T包含X。关联规则表示为X(X⊂T)⟹Y(Y⊂T),其中,X⊂I、Y⊂I、X∩Y=Φ。规则的普遍性一般用支持度和置信度来衡量。
支持度S表示事务在规则中出现的频率。关联规则X⟹Y的支持度S定义如下:
(1)
其中,|T(X∪Y)|为数据集中包含X∪Y的事务数;|T|为数据集中的事务总数。
置信度C表示关联规则X⟹Y的强度,可定义为:
(2)
其中,|T(X∪Y)|为数据集中包含X∪Y的事务数;|T(X)|为数据集中包含X的事务数[8]。
由上可知,关联规则的实现步骤可概括为:首先对原始数据库进行数据分析并得到一个事务数据库D,再人为地根据工艺要求提出一个最小支持度Smin和一个最小置信度Cmin,最后求出所有满足该最小支持度和最小置信度的关联规则。关联规则的挖掘问题同样可分为两个子问题:
a. 找出事务数据库D中满足最小支持度Smin的所有频繁项目集;
b. 检验满足最小支持度的频繁项目集是否满足最小置信度Cmin,生成对应的关联规则。
子问题a是关联规则中的关键部分,当前大部分研究工作大都集中在该问题上。Apriori、DHP及Partition 等算法被认为是最有影响和最有效的关联规则算法[9]。
2.2.2Apriori算法
Apriori算法是一种比较有影响力的挖掘布尔关联规则频繁项集的算法,其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。Apriori算法实现数据挖掘主要分为两步:
a. 通过迭代,扫描事务数据库中的所有项集,按照一定的最小支持度,筛选出所有频繁项集,即淘汰阈值低于最小支持度的项集,保留阈值相对较大的频繁项集;
b. 计算这些频繁项集的置信度[10]。
可见,Apriori算法的整个实现过程由“连接”和“剪枝”两个部分组成。
工厂基础自动化层面获取的数据十分庞大、复杂,但只需要系统稳态时的数据。所以,需要对原始数据进行预处理,从中提取出研究需要的稳态数据。
笔者使用相似稳定判别法得到系统稳态的时间段。生物氧化提金过程中,温度和pH值是敏感监测点,可以认为某段时间内温度和pH值都达到稳定时就是稳定工况。具体判别式为:
(3)
进风量为1 550~1 600m3/h,依据式(3)对数据进行筛选,得到对应稳态时的pH值、温度和氧化还原电位数据共26条(表1)。
表1 系统稳态数据
Apriori算法是一种挖掘布尔关联规则频繁项集的算法,因此需要将表1中的数据转换成布尔型数据。笔者采用适当的定义转换方法实现了浮点型数据到布尔型数据的转换,例如将pH值2.216 370 106转换为“属于[2.21,2.22]”。
笔者旨在研究生物氧化提金预处理系统的参数优化,因此省略了Apriori算法扫描数据库生成项集的过程,只对4维项集{pH值,温度,进风量,氧化还原电位}进行研究。按照pH值以0.1间隔、温度以1℃间隔、氧化还原电位以1mV间隔,可得26条关联规则。按照一般支持度计算方法,26条关联规则的支持度全部为1/26,失去了研究的意义,因此笔者主要以氧化还原电位的支持度作为26条关联规则的支持度。
由于研究对象和研究领域的不同,最小支持度和最小置信度的设定还没有特定的公式和方法,通常依据专家经验给定。笔者结合生物氧化提金预处理过程的一般要求和特殊性给定最小支持度Smin为7.7%,最小置信度Cmin为50%。结合式(2)可得强关联规则(表2)。
表2 强关联规则
依据式(2)可得,表2中第2行的强关联规则满足最小置信度,是笔者需要求取的关联知识。
为了判定挖掘到的关联知识是否能够更好地指导实践,需要结合被研究对象的实际工况具体分析各参数范围是否符合工艺要求,是否能达到较高的生产指标。
结合笔者对生物氧化预处理阶段影响因素的分析和西北高寒地区特殊的气候条件可知,氧化槽内的氧化还原电位直接关系着槽内细菌的活性和分解速率:强酸性环境下细菌活性和分解率更高。相对于平原地区,西北高原地区较高的温度环境更有利于细菌的生长。
依据表1的原始系统稳态数据可作出温度、pH值与氧化还原电位的相关关系曲线,如图1、2所示。可见,系统进风量在[1550,1600]时,温度在[42,43]之间时氧化还原电位最稳定、pH值在[2.2,2.3]之间时氧化还原电位最高。
图1 温度与氧化还原电位相关关系曲线
图2 pH值与氧化还原电位相关关系曲线
笔者依据系统稳态数据所挖掘出的关联规则从理论上来讲满足工艺要求,各参数在物理上可提高生物氧化提金系统的提金率。
针对生物氧化提金技术提金率受工艺参数设定影响波动大的问题,笔者依据数据挖掘技术和关联规则理论,采用Apriori算法建立了一种优化生物氧化预处理过程工艺参数的新方法,能够较准确地挖掘隐藏在历史数据中的温度及pH值等工艺参数的最优范围,可有效提高能源和原料的利用率,对生产实践具有理论指导意义,在常规流程工业过程优化领域具有广阔的应用前景。
[1] 陈飞.基于时间序列数据挖掘的生物氧化提金工艺参数优化[D].乌鲁木齐:新疆大学,2014.
[2] 李泉.生物氧化提金预处理过程参数间关系的辨识研究[J].化工自动化及仪表,2014,41(10):1185~1188.
[3] 李伟,南新元,吴琼.生物氧化提金中基于PSO-LSSVM的氧化还原电位建模研究[J].贵金属,2014,35(4):60~64.
[4] 聂晓凯,阳春华,柴琴琴,等.基于最小二乘支持向量机的氧化铝蒸发过程浓度在线预测[C].有色金属工业科学发展——中国有色金属学会第八届学术年会论文集.长沙:中南大学出版社,2010:415~419.
[5] 刘子龙,秦晓鹏.影响生物氧化提金工艺的主要因素与措施[J].黄金科学技术,2010,18(2):58~60.
[6] Liao S H,Chu P H,Hsiao P Y.Data Mining Techniques and Applications-A Decade Review from 2000 to 2011[J].Expert Systems with Applications,2012,12(39):11303~11311.
[7] 高丙朋,南新元,魏霞.基于迭代LS-SVM生物氧化提金预处理工艺参数优化算法的研究[J].贵金属,2012,33(2):40~43.
[8] Han J W,Micheline K,Pei J.Data Mining: Concepts and Techniques[M].San Francisco: Morgan Kaufmann,2011:147~149.
[9] Ralha C G,Carlos V S S.A Multi-agent Data Mining System for Cartel Detection in Brazilian Government Procurement[J].Expert Systems with Applications,2012,39(14):11642~11656.
[10] 包震宇.基于粗糙集对Apriori算法的改进[D].上海:上海师范大学,2010.