刘金平 何捷舟 唐朝晖 谢永芳 马天雨
泡沫浮选是应用最为广泛的一种矿物分选方法,同时也是矿物加工中最不稳定和最不可预测的步骤之一[1].精矿品位是衡量精矿产品质量、判断选矿水平高低的关键性指标.然而,由于浮选工业过程是典型多相流复杂耦合系统,系统中包含复杂的物理化学变化,目前还难以实现浮选精矿品位的在线检测[2].
研究表明浮选泡沫表面颜色是精矿品位最为快速便捷的直接指示器[3-5].有经验的生产工人正是通过观察泡沫表面颜色对精矿品位以及生产工况进行评判,以便对生产进行操作调整.因此,近年来,国内外许多专家学者对基于机器视觉浮选过程监控开展了一系列研究[4-7],以期通过自动分析泡沫图像颜色、尺寸等特征,实现精矿品位的在线监测.
然而,在实际的工业浮选过程监控中,因为泡沫图像信号会受到多种可变光照的影响,包括泡沫图像采集系统的光源衰减、自然光照强度和入射角度的变化以及选厂中各种灯光设备的照明变化等,都会对泡沫图像的颜色的准确测量带来严重干扰[7].从而难以获得鲁棒的泡沫颜色特征,进而也就难以基于所获得的泡沫颜色特征对精矿品位进行准确预报.因此,要保证基于机器视觉的矿物浮选过程监控系统的有效性和实用性,获取开放环境下、不受光照影响的泡沫表面的颜色特征成为当务之急.
为获取不受光照影响的图像恒常颜色特征,一些研究者针对人类视觉所具有的可变光照颜色恒常感知能力,对工业视觉检测中的颜色恒常计算模型和方法进行了大量的研究[8].
传统的图像颜色恒常模型都是基于某种视觉感知假设(约束)对入射光进行全局分析与建模,根据光照估计结果对非基准光照(色偏)图像进行颜色校正[9-10].然而,由于人类视觉的颜色恒常感知机理目前还没有很好地掌握,将一些简单的感知假设应用于颜色恒常计算时,往往难以获得令人满意的校正结果[11].因而,一些研究者期望直接从图像数据中对场景的真实光照或者真实颜色进行分析.
自从有研究者将神经网络[12]等机器学习方法引入到图像的色度估计中之后,基于机器学习的颜色恒常处理方法,因其计算速度快、适应性强、可在线更新等优点,引起国内外研究者广泛关注.特别是近年来,随着深度卷积网络的盛行,基于深度学习的颜色恒常方法更是受到了学术界和工业界的高度关注[10,13-14].
Bianco 等[14]首次采用深度卷积网络进行光照估计.Oh 等[10]采用深度卷积神经网络将传统的颜色恒常中的光照估计问题转换为光照分类问题.然而,该方法所采用网络模型结构复杂,无法满足工业监控实时性需求.为了提高模型效率,Hu 等[13]采用全卷积神经网络来取代全连接网络,并采用更轻量级的SqueezeNet 网络结构替换了AlexNet网络结构,以缩减网络模型计算时长.
在工业浮选过程监控中,浮选泡沫图像光照情况复杂多变,很难对这些相互干扰的、可变多光照进行有效估计或者分类.因此,传统的基于光照估计的颜色恒常方法会因光照估计的失败导致对泡沫图像颜色校正时出现模糊、伪色块等严重的图像失真问题,难以满足工业浮选过程监控的实际需求.
实际上,在基于机器视觉的矿物浮选过程监控中,更重要的是要能有效估计出各种未知光照条件下所采集到的泡沫图像在某种基准光照条件下的色域显示,以获得能有效反映浮选工况或者精矿品位的泡沫颜色信息,实现基于泡沫图像特征的工况鉴别和精矿品位在线监测.
因此,泡沫图像颜色恒常处理可以看作一种图像到图像的颜色(风格)转移,也就是要将未知光照下的泡沫图像转换到某种特定光照下的颜色显示.与传统图像风格转移目标不同的是,在进行泡沫图像颜色转移时,要能有效保持泡沫图像中复杂的气泡轮廓、表面纹理结构的不变性(因为泡沫的表面几何特征和表面纹理特征也与浮选生产工况,比如加药健康状态[3,7,15],有较大的相关性).
生成对抗网络(Generative adversarial network,GAN)[16]及其改进模型,比如Pixel2Pixel[17],CycleGAN[18]是目前常用的图像风格转移模型.但是,传统的基于GAN 的图像生成方法是基于随机噪声进行图像生成无法实现图到图的颜色风格转移,难以保证气泡轮廓和表面纹理的结构不变性,无法直接应用于泡沫图像光照不变颜色特征监测.
本文提出一种基于Wasserstein 距离的循环生成式对抗网(Wasserstein distance-based cycle GAN,WCGAN)用于泡沫图像光照不变颜色特征检测.WCGAN 由具有对称结构和循环一致性约束的两个GAN 组成,可获得各种未知光照条件下泡沫图像色域信息与基准光照下色域信息的非线性映射关系,从而实现各种非恒定光照下色偏泡沫图像到基准光照下的颜色显示,并有效保持颜色校正图像的结构不变性.本文主要研究工作和创新点总结如下:
1) 提出一种基于WCGAN 的泡沫图像颜色校正方法,将传统的基于光照估计的颜色恒常问题转换为一种结构保持的图像到图像的颜色(风格)转换问题,以实现各种未知光照条件下的泡沫图像到基准色域下的颜色表示.
2) WCGAN 基于CycleGAN 模型的循环对称结构和循环一致性约束,采用Wasserstein 距离对CycleGAN 中的生成对抗损失函数进行优化修改,并对其生成器结构进行改进,使得WCGAN 模型能在进行图像颜色转换的同时有效保持原始图像轮廓和纹理结构的不变性.
实验表明,WCGAN 具有收敛速度快、生成结果稳定的优点且具有在线修正功能,可对各种复杂工况进行有效监测,满足浮选过程监测时效性的要求,为实现浮选过程精矿品位在线监测奠定基础.
本节先回顾颜色恒常中的光照模型,再简要介绍基于GAN 的颜色恒常方法以及Wasserstein GAN (WGAN)的基本原理.
光照是决定非源观测物质表面颜色的重要因素.绝大多数的颜色恒常计算模型均是通过先计算出图像的入射光照颜色,再通过某种转换规则将当前的入射光照下的图像颜色调整到标准白色光照下所呈现出来的颜色表示.
设图像颜色数据为fc=(fR,fG,fB)T,对应的光源颜色为I(λ),λ为入射光源的波长,被照射物体表面的反射率为S(x,λ),并假设物体表面为Lambertian 表面(仅包括漫反射),则图像颜色数据可表示为[9]
其中,w代表可视光谱,mb表示漫反射系数,ρ(λ)=(ρR(λ),ρG(λ),ρB(λ))T代表摄像设备的敏感函数.
式(1)考虑了多种光照情况,为降低模型复杂度,可以将多种光照综合为单光照,那么式(1)可以进一步简化为
由于I(λ)与ρ(λ) 均是未知量,对光源颜色I(λ)估计是典型的非适定的问题.为了研究方便,入射光照的估计一般是在一定感知约束(假设)下计算得出.
在对色偏图像进行颜色校正时,一般基于入射光照(颜色)的估计结果,采用线性变换对光照图像像素的颜色值进行转换.
根据Beer-Lambert 定律,由两种不同的光照形成的图像可以通过对角矩阵转换模型进行颜色转换,对角模型又称Von Kries 模型[9].因此,通常在估计出原图像中的入射光照后,采用对角矩阵将原始图像转化为在标准白光 (R=G=B=255)下颜色显示,转换公式为
其中,fo和fu分别表示校正后的和未知光源情况下获得的图像值,Du,f是对角转换矩阵.
上述方法实现简单,然而,仅凭一张没有任何来源的输入图像,是很难精确计算出光照信息的,也就是难以获得有效的Du,f.
实际上,在基于机器视觉的矿物浮选过程监测中,并不需要显式地进行泡沫光照估计,也不一定要将图像转换到标准白色下进行显示,而仅需要将各种未知光照泡沫图像映射到某种基准光照下的色域显示,以获得能有效反映精矿品位变化情况的泡沫颜色特征.
因此,可将泡沫图像颜色恒常问题转换成一个图到图的颜色风格转换问题,采用某种机器学习模型获得非基准光照下泡沫图像色域信息与基准光照泡沫图像色域信息的非线性映射关系,进而实现未知光照下泡沫图像的色域到基准色域下的颜色风格转换.图1 显示了本文进行光照不变泡沫颜色特征提取的基本思路.
图1 泡沫图像光照转换思想Fig.1 Scheme of the color translation of froth images
基于GAN 的图像颜色转换基本思路为: 通过GAN 框架中的两个基本模块(生成器(G)和判别器(D))的对抗训练,学习一个有效的颜色转换映射,G:X →Y,以便能将任意未知光照下的图像颜色域X转换到某种基准光照下(比如白色基准光照)颜色域Y,同时要求在色域转换时,图像结构保持不变.
在模型训练中,G的监督信息来自于D,也就是需要将G的输出信息输入到D中,D来辨识这个输入信息是来自于真实的基准光照下图像还是来自于G的生成数据,迫使G来进一步优化,以便能生成更符合基准光照下图像色域分布的图像.
传统的GAN 采用随机输入来进行图像生成,其能生成符合特定光照条件的(泡沫)图像,却很难保留原图像复杂的几何轮廓、表面纹理等特征.同时传统的GAN 存在训练难、收敛慢的特点,无法实现图到图的转换等问题.因此,本文采用CycleGAN[18]的循环对称结构来构建结构保持的图到图的颜色转移模型.
CycleGAN 采用两个对称的GAN,GAN1 与GAN2,进行循环训练.两个GAN 共享两个生成器G和F,并各自拥有一个独立的判别器,D1与D2.生成器用来实现泡沫图像数据集X与Y的颜色分布域之间的相互映射转换.判别器D2用来判别图像是属于X的真实图像还是来自于{F(y)|y ∈Y}的生成图像,D1用来判别图像是属于Y的真实图像还是来自于{G(x)|x ∈X}的生成图像.
为保证两个生成器是按照一定的映射关系进行转换而非随机生成,CycleGAN 引入了一种循环一致性损失函数.对于GAN1,当图像x(x ∈X)被生成器G映射到Y域上被D1判别为真时,将生成图片再通过生成器F映射回X域,并计算其与原始图像x的损失度,即循环一致性损失,试图使{F(G(x))≈x|x ∈X}.同理,对于GAN2,其一致性目标为{G(F(y))≈y|y ∈Y}.
其对抗损失的目标函数与原始GAN 一致,GAN1 的损失函数表示为[18]
其中,Pdata是代表数据的概率分布,E [·] 表示数学期望.
GAN2 的损失函数表示为[18]
循环一致性损失函数用于计算映射回来的图像和原图像的L1 范数,其定义为
其中,‖·‖1为1 范数.
因此,CycleGAN 完整的目标函数为
其中,λ代表循环一致性损失函数在目标函数中的重要性.
理论上,通过CycleGAN 能够有效实现不同颜色域图像的风格转换,其训练模型结构如图2 所示.
图2 CycleGAN 结构图Fig.2 CycleGAN structure
传统的GAN 或CycleGAN 存在着以下问题:1)模型坍塌.GAN 在训练过程可能会出现生成器退化,难以生成符合真实分布的数据;2)难以收敛.GAN 是在高维非凸的参数空间找到纳什均衡点,但梯度下降法只有在凸函数的情况下才能有效获得纳什均衡点.对于用神经网络表示的高维非凸函数,极有可能存在无法收敛的现象.
针对以上问题,很多专家学者提出了不同的改进方法[19-20].WGAN[19]的作者认为传统的GAN 损失函数中采用JS (Jensen-Shannon) 散度与KL(Kullback-Leibler)散度来衡量两个分布之间的差异(距离)会导致其判别器过于优化而生成器很难得到足够的梯度,从而出现梯度消失、模型坍塌等问题.
根据文献[21]的描述,原始GAN 的判别器在最优情况下,GAN 的损失函数等价为最小化真实数据分布Pdata(x)与生成数据分布PG(x)之间的JS散度.当两个分布之间的差异越小时,JS 散度越小,从而可以通过优化JS 散度来减小两个数据分布之间的差异,生成符合真实数据分布的图像.但是,这一理论仅在两个分布有所重叠时成立.
WGAN 的作者证明当Pdata(x)与PG(x)分布之间不存在重叠或者重叠可忽略时,JS 散度为固定常数 l og(2),从而导致了梯度消失,并证明了两个分布之间无重叠的可能性非常大[21].因此WGAN 的作者提出了一种新的等价优化的距离衡量方法,即Wassertein 距离,来衡量两个分布之间的距离与差异,并对原GAN 损失函数进行了修改.
Wasserstein 距离又称为Earth-Mover 距离,其表示为
其中,Π (P r,Pg) 表示边缘分布为Pr与Pg的联合分布 (Pr,Pg)的集合.
式(8)中的下界计算无法直接求解,因此,根据Kantorovich-Rubinstein 对偶原理,将Wasserstein 距离等价定义为
其中,K为函数f的Lipschitz 常数,即
其中,x1,x2为函数f上的任意两个元素.
则对于判别器D可以定义目标函数L为
其中,β为判别器的参数集,当β不超过某个范围的条件下L足够大时,L就近似等于真实分布与生成分布之间的Wasserstein 距离,而生成器G的优化目标是使L最小化.
研究表明,即使两个分布之间没有重叠,Wasserstein 距离仍然能够有效测量它们之间的距离大小.因此,WGAN 采用Wasserstein 距离将传统GAN 的对抗损失函数改写为
其中,Gθ(z) 为生成器基于随机噪声生成的样本,θ为生成网络的参数集.Dβ(·)为判别器的判别结果,β为判别器网络参数集.
研究表明该改进能有效的增强GAN 的稳定性和鲁棒性,解决原始GAN 难以收敛以及模型容易坍塌等问题[22].
本节详细介绍WCGAN 的模型结构及基于WCGAN 的图像颜色校正流程,并对所提方法的复杂度进行分析.
WCGAN 采用与CycleGAN 一样的对称循环网络结构,由带循环一致损失约束的两个GAN 构成.两个GAN 共享两个生成器,分别为G和F,并具有各自独立的判别器D1和D2.G:X →Y,用于实现从未知光照图像到参考光照下图像的颜色转换;而F:Y →X或F:G(X)→X,通过引入循环一致损失约束.能保证通过G进行颜色转换后的图像,能通过F再转换回到其原始的色域空间.也就是要满足F(G(x))≈x,并且G(F(y))≈y,其中x ∈X,y∈Y.
为保证模型的转换稳定和快速收敛,WCGAN采用Wasserstein 距离取代传统CycleGAN 中的JS 散度与KL 散度来优化其对抗损失函数.同时,对传统CycleGAN 中的生成器结构进行改进,使生成泡沫图像更加符合真实基准光照图像的颜色概率分布,并能有效保持其轮廓和表面纹理结构特征的不变性.
首先,采用Wasserstein 距离对CycleGAN 的对抗损失函数进行优化,则WCGAN 中GAN1 的对抗损失函数(4)优化为
WCGAN 中GAN2 的对抗损失函数(5)优化为
其中
WCGAN 的整体目标损失函数为
其中,λ代表循环一致性损失在目标函数中的重要性.
由于RMSProp 优化算法具有收敛速度快,摆动幅度小等优点,本文采用RMSProp 优化算法[23]对WCGAN 中损失函数进行求解.RMSProp 优化算法求解计算为
其中,w为求解参数,L为求解的目标函数,α为学习率,θ为一小常数,保证式(18)的分母项不为0,Ldw为参数w历史梯度的加权平方值,即
其中,β为衰减率.
WCGAN 的生成器网络结构如图3 所示,包括编码块(Encoding)、转换块(Transformation)和解码块(Decoding).为减小原始图像的轮廓信息丢失,编码块采用全卷积层进行轮廓特征提取,不包含全连接层以及池化层.通过全卷积操作得到原始图像表面结构信息的特征图,但其颜色信息依旧符合输入图像的颜色分布.因此本文采用转换块将输入泡沫颜色域的分布映射到基准颜色域上,最后由3 层反卷积网络构成的解码块,生成符合基准颜色域分布同时拥有原图像轮廓信息的图像.
图3 WCGAN 的生成器结构Fig.3 Generator structure of WCGAN
为保证转换块在对图像颜色域转换的同时尽可能保持其结构信息的不变,本文采用多层ResNet[24]网络进行转换,以保证转换后的图像和输入图像在轮廓信息上保持一致性.
WCGAN 中的辨别器和CycleGAN 中辨别器保持一致,为70×70 的PathGANs[18].其输入为图像,通过卷积网络提取图像中的关键特征,输出为1 维单变量,表示图像是通过生成器生成还是真实色域图像.
本文提出的基于WCGAN 的泡沫图像颜色校正算法的主要步骤如下:
步骤 1.训练集准备.准备未知光照泡沫图像数据X并选择某特定光照下的泡沫图像组成基准图像集Y.
步骤 2.随机初始化WCGAN 所需的两个生成器G和F,以及判别器D1,D2的网络参数,设置迭代次数n,RMSProp 优化算法的学习率α等参数.
步骤 3.对D1,D2进行预训练.利用RMSProp优化算法对式(13)和式(15)所描述的判别器D1,D2进行优化求解,使得D1(y)=1,D1(G(x))=0,D2(F(y))=0,D2(x)=1,其具体计算为
WCGAN 基于全卷积深度神经网络,其训练过程需要经过两个生成器和两个判别器模块,并且需要反向迭代修改.而测试(实际工业校正)则只需生成器G将非恒定光源图像转为恒定光照情况下的图片即可.
WCGAN 的网络计算时间复杂度为
其中,D为卷积网络深度,Cl为l层卷积核个数,K为卷积核的边长,M为卷积核输出特征图边长,其由输入矩阵尺寸X、卷积核尺寸K、边界填充P、步长S决定,其具体计算式为
WCGAN 的空间复杂度为
空间复杂度即访存量,只与总参数量以及输出特征图有关,与输入数据大小无关.由式(20)和式(22)可计算出本文算法在训练集上的时间复杂度为175 GFLOPs,空间复杂度为141 MB.而在测试集上,本算法时间复杂度为36 GFLOPs,空间复杂度为30 MB.
因此,本文提出的泡沫图像颜色校正方法在结构上去除了传统深度卷积神经网络的池化层以及全连接层,无论是训练还是测试都要比传统的GAN网络具有更快的表现.根据Roof-line 模型理论[25]该算法在1080Ti 的GPU 环境下其测试能保证ms级的图像处理速度,从而实现工业现场的实时图像校正.
为验证本文所提方法的有效性,首先在两个公共颜色恒常数据集上进行颜色校正验证和对比性实验.然后,在一实际的工业铝土矿浮选过程,通过收集相应的矿物浮选泡沫图像数据和相应的冶金过程参量和工艺指标参量,分析并对比该段时间内所采集泡沫图像的原始颜色特征和经恒常处理后的颜色特征与其对应精矿品位之间的相关性,验证所提方法的有效性.
选用两大公共颜色恒常数据集Gehler-Shi 568data[26]和SFU 321 labimages[27]进行实验验证.
数据集Gehler-Shi 568 data 收集了568 幅RAW 格式的室内/室外图像,并在每一个场景上放了一个色彩检验图,用以测试光源和动态范围,其中real_illum_568.mat 文件记录了真实光照情况,因此可以计算出正常光照下的图像作为基准数据.
数据集SFU 321 lab images 则是在11 种光源下拍摄的31 幅实验环境图像,去除了20 幅不规则图像,其中包含三种不同的荧光灯、四种白炽灯和一种加了蓝色滤片的4 个白炽灯图.本文选择一种与日光接近的白炽灯图作为基准数据,其他图像作为待矫正的图像数据.
本文实验对以下两类算法进行性能对比: 1)传统的基于统计量的经典颜色恒常性算法,包括:MAX-RGB[28],Gray-World[29],Gray-Edge[30],White-Patch[31];2)当前的基于机器学习的颜色恒常算法,包括: 全卷积神经网络(FC4[13])、原始的CycleGAN[18]和WD+CycleGAN,即原始的CycleGAN 结构,但采用Wasserstein 距离对其对抗损失进行修正的模型.
本文实验在i7-8750h CPU、GTX1080-Ti GPU、16 GB RAM 硬件上进行训练和测试.
3.1.1 评价指标
本文引入角度误差和色度误差这两个颜色相关指标来客观评价颜色校正的准确度,同时采用结构相似性(Structural similarity,SSIM)[32]标准来衡量基于深度学习的颜色转换模型对图像轮廓、纹理等结构特征的保持度.
1)角度误差
假设图像的真实光照为ea=(Ra,Ga,Ba),算法估计得到的光照值为eb=(Rb,Gb,Bb),角度误差Ea定义为
其中,a rccos 表示反余弦函数,“·”表示两个向量的内积运算.
角度误差Ea越小说明算法精确度越高.假设共有N幅测试图像,其中第i幅图像的角度误差为Ea(i),本文采用N个角度误差值的平均值(Mean)、最大值(Max)、均方根(Root mean square,RMS)作为角度误差评定的3 个指标.其中,均方根RMS定义为
2)色度误差
除了角度误差外,色度误差也是颜色恒常性计算模型的一个重要评价指标.为了消除颜色强度的影响,可将颜色从 (R,G,B) 空间投影到平面R+G+B=1上,从而得到一种光照强度归一化后的色度空间 (r,g,b).
由于色度b属于冗余的信息b=1-r-g,因此一般采用 (r,g)二维的色度值.假设图像的真实光照色度值ca=(ra,ga),算法估计得到的光照色度值为cb=(rb,gb),那么色度的欧氏距离将作为色度误差Ed,即
类似于角度误差,通过计算N帧测试集的色度误差中值(Median)、最大值(Max) 以及均方根(RMS),作为色度误差评判的指标.
3) SSIM
结构相似性(SSIM)是一种衡量两幅图像相似度的指标,其表达式为
其中,uX和uY为图像X和Y的均值,σX和σY为图像X和Y的方差,σXY为图像X与Y的协方差,C1,C2为常数,防止分母为零,SSIM 值越接近1 则相似度越高.本文通过计算n帧测试集的均值作为SSIM 评判的指标.
3.1.2 结构及分析
图4 显示了部分测试图像的颜色恒常校正效果,图中的右下角数值为校正后的颜色特征与真实颜色特征的角度误差,右上角度数为校正图像与原图像的结构相似度.
从图4 的颜色校正视觉结果来看,WCGAN 能很好地将色偏图像转换到基准色域上.相比于另外6 个颜色校正方法,所获得的结果更符合人类视觉的感知.原始的CycleGAN 因其损失函数存在的梯度消失问题容易导致模型坍塌收敛速度慢,图像转换时容易出现模糊、色块等问题.WD+CycleGAN虽然在一定程度上减少了校正图像中的模糊、色块的存在,但其在颜色校正精度和结构保持上与本文的WCGAN 有较大的差距.
为了进一步客观评估颜色恒常算法的优劣,采用10 折交叉验证,计算客观评价指标角度误差、色度误差和SSIM 的平均值等统计量来进行对比.
表1 和表2 列出了颜色恒常算法在数据集Gehler-Shi 568 data 上的结果.从中可以看出,WCGAN角度误差的均值与均方根值最小,虽然在最大值上并非最好,但与最优的Gray-Edge 算法只相差0.1.总体来说,WCGAN 生成的图像是最接近标准光照图像的.相比于其他方法,WCGAN 更能适应于不同光照条件下的颜色恒常,并且在校正时间上也是最快的.
表1 基于统计量的颜色恒常方法在Gehler-Shi 568 data 上的对比结果Table 1 Comparison of statistics-based color constancy methods on Gehler-Shi 568 data
表2 基于机器学习的颜色恒常方法在Gehler-Shi 568 data 上的对比结果Table 2 Comparison of machine learning-based color constancy methods on Gehler-Shi 568 data
从色度误差上看,MAX-RGB 算法结果最差,其他算法接近.但从均值、最大值和RMS 上来看,WCGAN颜色误差更小,更加稳定.结合图4 的颜色校正结果,也能直观看出,WCGAN 生成的图像颜色恒常结果是最符合人类视觉的颜色恒常感知的.
图4 图像颜色校正结果Fig.4 Image color correction results
在基于深度学习模型的颜色恒常算法中,WCGAN的SSIM 值最大,证明其在颜色转换的同时对原图像的轮廓结构保存度高.能有效地保证其纹理特征等结构信息不变.
在数据集SFU 321 lab images 上的结果如表3和表4 所示.相比较Gehler-Shi 568 数据集,SFU 321 lab images 更加轻量级,且色偏种类多分布规律,因此无论是在色度误差、角度误差、SSIM 还是校正时长上,WCGAN 都有更好的表现,且与传统的基于统计以及基于机器学习的颜色恒常方法相比较,WCGAN依然具有极大的优势.
表3 基于统计量的颜色恒常方法在SFU 321 lab images 上的对比结果Table 3 Comparison of statistics-based color constancy methods on SFU 321 lab images
表4 基于机器学习的颜色恒常方法在SFU 321 lab images 上的对比结果Table 4 Comparison of machine learning-based color constancy methods on SFU 321 lab images
虽然在两个数据集上WCGAN 的训练时长因其结构的复杂性而耗时较多,但在实际的工业过程中,转换仅需要其中的一个生成器,因此能很好的满足工业过程中的实时监测.同时其在线更新机制考虑到视频流临近帧节的图像相似度高,因此可采用跨帧图像用于训练.以保证训练速度不影响WCGAN 的转换效率.
在某工业铝土矿浮选现场搭建机器视觉监测系统,对于各种未知光照下的色偏泡沫图像采用本文所提出的WCGAN 模型进行颜色恒常处理,对恒常处理后的泡沫图像进行颜色特征提取,并用于最终精矿品位监测.
3.2.1 工业铝土矿浮选过程描述
该铝土矿浮选工艺流程如图5 所示,其目标是将入矿品位铝硅比(A/S) (5 左右)提高至少1 倍.很明显,铝土矿浮选回路是一个包含多个子回路的连续的复杂工业过程.
图5 铝土矿浮选回路Fig.5 Bauxite flotation circuit
该选厂的浮选回路包括粗选、精选(包括精选I 和精选II)、扫选(包括粗扫和精扫)等3 个基本子过程.其中,粗选泡沫被送入精选I 进行再一步的浮选,以提高浮选品位: 粗选的底流被泵入粗扫槽,以再一次回收粗选中未被浮选出来的矿物粒子: 粗扫的产品——粗选泡沫被送入粗选再处理,粗扫的底流作为尾矿排出.精选I 的泡沫层被送入精选II子过程,精选II 最终的精选泡沫经过浓密、烘干等一系列的后续处理作为浮选过程的氧化铝选矿产品.精选I 的底流被送入精扫,以进一步回收未被回收的矿物粒子;而精扫的矿浆底流作为尾矿被排出.
本文将机器视觉引入到过程监测中.为实现整个浮选流程的监控.经对现场流程的细致分析,在粗选首槽、粗扫末槽、精选II 首槽分别安装了泡沫图像采集设备(设备安装位置如图5 所示),分别用来监视浮选过程的给矿、尾矿、精矿的性质,实现整个浮选回路的全流程在线监控.
由于精选II 的泡沫层被回收后将作为最终的精矿,精选II 尾槽中的泡沫颜色与最终的精矿品位(A/S)直接相关.因此,本文重点关注该浮选槽泡沫颜色与选矿指标(A/S)间的关系.
3.2.2 铝土矿泡沫图像颜色校正
在实验中,先选定某一特定光照条件下的图像作为基准光照下的泡沫图像,采用WCGAN 进行泡沫图像颜色恒常模型学习,将训练好的WCGAN用于实际工业铝土矿浮选的泡沫图像校正,以其能将任意未知光照下泡沫图像转换到该基准光照下进行颜色显示.图6 显示了实验中所选用的基准光照泡沫图像及其对应的CIELab 颜色空间的直方图分布.
图6 基准光照泡沫图像及其Lab 颜色分布Fig.6 Reference light froth image and its Lab color distribution
图7 显示了5 帧带有明显色偏的泡沫图像采用WCGAN 以及CycleGAN、FC4 进行颜色校正后的视觉效果,以及Lab 颜色空间分布图,图像中的右下角数值为校正图像与原图像的结构相似度,每个曲线图的横坐标表示 L,a,b 颜色通道值,纵坐标表示频率.
图7 浮选泡沫图像颜色校正结果Fig.7 Color correction result of flotation froth image
WCGAN 校正后,泡沫图像的几何轮廓信息和表面纹理信息基本保持不变,而泡沫图像的颜色具有明显的基准色域颜色特征;而未改进的CycleGAN 与FullCovNet 算法的校正图像,虽然在颜色分布上与基准光照图较为接近.但其结构相似度较小.难以保证校正后的图像其轮廓等信息不变.
3.2.3 泡沫颜色特征与过程参量间的相关性
本文进一步提取泡沫颜色的数字特征以分析泡沫颜色与生产指标间的关系.由于HSV 与CIE Lab 等颜色空间更符合人类视觉的感知特性,除了提取泡沫图像的RGB 颜色特征,还将泡沫图像转换到HSV 与CIE Lab 颜色空间上,提取了R,G,H,S,a,b 这6 个通道上的数字特征.其中,R 和G通道为归一化的通道,计算方式为R=R/(R+G+B),G=G/(R+G+B).原始的H 通道,取值范围为 [ 0°,360°],随着取值的增大,代表从红色、黄色、绿色、青色、蓝色、品红再回到红色,即 H 为 0°或者 360° 时表示最红.因此,将H 通道颜色值,调整为H=|H -180|/180,用来计算该颜色值的相对红色程度.
然后,本文分别计算了这6 个颜色通道上的均值、标准差、偏度、峰度这4 个统计量,对每帧图像共获得24 维统计量组成对应图像的颜色特征向量.
图8 显示对比了部分泡沫颜色特征与精矿品位间的相关性.从中可以看出,经WCGAN 模型校正后的精矿(精选II 尾槽)泡沫颜色特征与精矿品位有较明显的相关性.
图8 泡沫图像颜色特征与A/S 间相关性 ((a1)和(a2)分别代表校正后和校正前H 均值与A/S 间的相关性;(b1)和(b2)分别代表校正后和校正前a 通道的标准差与A/S 的相关性;(c1)和(c2)分别代表校正后和校正前的归一化R 通道均值与A/S 之间的相关性)Fig.8 The correlation between color characteristics of froth images and A/S ((a1) and (a2) represent the correlation between H-means and A/S after correction and before correction;(b1) and (b2) represent the correlation between standard deviation of a-channel and A/S after correction and before correction;(c1) and (c2) represent the correlation between normalized R-channel mean and A/S after correction and before correction,respectively)
从图8(a1)中可以看出,精矿品位(A/S)有随着(修改后的) H 通道均值上升而上升的趋势,并且该趋势在H 通道均值较小时候,A/S 上升迅速,当H 均值大于某个值后,A/S 变化比较平缓.该特性与修改后的R 通道均值与A/S 之间的相关性有类似的变化趋势(如图8(c1)所示),其原因是本文所提取的H 通道特征值与R 通道特征值均是用来表征泡沫图像的红色强度的,因而这两个通道上的特征量与A/S 的相关性具有基本相同的变化趋势.而图像a 通道颜色标准差与A/S 的变化趋势则恰好相反(如图8(b1)所示),也就是随着a 通道颜色标准差的增大,A/S 有下降的变化趋势.
而原始的未校正的泡沫图像颜色特征因光照的影响,色偏严重,所提取的颜色特征缺乏鲁棒性,因而无法有效体现其与精矿品位之间的相关性(如图8(a2)、图8(b2)和图8(c2)所示).
因此,由于本文所提出的WCGAN 能将各种未知光照下的泡沫图像转换到基准光照下的色域显示,因而可以获得能直接反映精矿品位变化或者工况变化的泡沫图像颜色特征参量.进而基于泡沫颜色特征与A/S 相关性,有望实现生产工况或者A/S的在线监测.
3.2.4 基于泡沫颜色的精矿品位监测
在铝土矿浮选过程中,精矿品位(A/S)目前还无法实现在线检测,一般只能依靠离线采样和实验室化验.实验室检测方法耗时耗力,一般一天只能获得1 个或2 个检测值.因此,常因精矿品位在线监测值的缺失,无法实现生产工况的有效评估,也就是难以及时对生产做出有效的操作调整,以保证生产的稳态优化运行.
在实验中,本文连续收集了28 天的铝土矿浮选过程参量数据,包括各种工况状态下的未知光照条件下的泡沫图像和对应的冶金过程参量以及人工采样化验的精矿品位数据.每天人工采集精矿样品并化验A/S 数据8 条,再加上去除现场设备故障整修时段数据,共获得201 条有效的人工化验的A/S数据.随机选择其中的120 条用于模型训练,剩余的用作模型测试.
基于所获取的泡沫图像颜色特征,采用经典的回归分析模型对精矿品位(A/S)进行预测.实验中采用的回归分析模型主要包括两种,即高斯混合回归(Gaussian mixture regression,GMR)模型[36],最小二乘支持向量机(Least square — support vector machines,LS-SVM)模型对精矿品位进行预测.由于所提取的24 维颜色特征具有较大的冗余性,在实验中,采用主成分分析方法(Principal component analysis,PCA)进行维数约简,最终获得基于PCA 降维的14 维约简特征,进行精矿品位预测.图9 显示了基于泡沫颜色特征的铝土矿精矿品位(A/S)的预测结果.
从图9 中可以看出,A/S 的预测结果与实际检测结果基本一致.该结果表明,本文所提出的WCGAN模型可以获得有效的反映精矿品位变化的泡沫颜色特征,因而,基于所获得的颜色特征可实现精矿品位的在线监测.
在基于机器视觉的矿物浮选过程监测中,泡沫图像信号因受多种可变光照的交叉干扰而不可避免存在严重色偏.本文提出了一种基于WCGAN 泡沫图像颜色校正方法.WCGAN 通过学习基准色域的泡沫图像与真实工况环境下的泡沫图像色域的映射关系,可以将各种未知光照条件下的泡沫图像转换到基准色域下颜色显示,进而获得不受光照影响的泡沫颜色特征.
在实际的铝土矿浮选过程中进行了工业验证,结果表明,所提方法能在进行泡沫图像颜色校正的同时,有效保持图像的几何轮廓和表面纹理特性.进而,基于基准光照下的校正泡沫图像颜色特征,能实现铝土矿浮选过程精矿品位有效预测,为基于机器视觉的矿物浮选过程的自动化监测提供了技术支撑.
下一步的工作是结合本文所提出的光照不变泡沫颜色特征提取方法融合泡沫图像其他视觉特征(如表面纹理、几何轮廓特征)和冶金过程参量(如流量、矿浆浓度、细度、p H 值),实现矿物浮选过程工况的准确鉴别和精矿品位的在线监测,根据精矿品位或者工况的变化情况提出相应的过程加药量优化设定方法,保证浮选过程的稳定优化运行,为提高选矿产品质量和降低矿物资源消耗奠定基础.