基于改进加权欧氏距离的光谱反射率重建样本选择方法研究

2023-12-13 06:36:28李日浩张伟峰

光谱学与光谱分析 2023年12期

马媛, 李日浩, 张伟峰

华南农业大学数学与信息学院, 广东广州 510642

引言

颜色是人们观察和理解事物的重要信息, 但它并非是固定不变的, 而是人眼对特定环境下光刺激的视觉感受。物体的真实颜色是由其表面的光谱反射率决定[1], 即对照射在它上面的不同波长的可见光反射的光通量与入射的光通量之比。获取光谱反射率的专用仪器价格昂贵、步骤繁杂缓慢、空间分辨率低, 使得其无法满足广泛的应用需求。因此利用民用设备如相机、扫描仪等进行光谱反射率重建的问题得到了广泛的关注与研究, 如壁画艺术品的颜色复原[2]等。

光谱反射率重建可以看作是利用训练样本找到相机的RGB三维响应值向量与对应的高维光谱反射率向量间的映射关系, 这是一个病态的反问题。重建算法中训练样本的选择至关重要, 从样本的使用角度可以分为全局学习方法[3-7]和局部学习方法[8-9], 前者利用所有训练样本构建适用于所有待测样本的单一映射模型, 其存在的问题是严重依赖于大量分布较好的训练样本, 而在实际情况中较难满足。有学者研究从全部训练样本中选择最有代表性的样本来克服样本分布偏差问题, 如Hardeberg等[5]提出了比较所选训练样本的光谱反射率矩阵的最大最小奇异值之比的最小条件数法; Mohammadi等[6]提出了基于光谱空间距离进行聚类的方法; Shen等[7]提出了特征向量和虚拟成像结合的方法, 通过最小化总反射率均方根误差来选择样本。局部学习方法根据每个待测样本挑选一组局部训练样本构建独立的映射模型, 这种方法模型简单且自适应能力强, 具有良好的泛化能力, 适用性更广。局部学习方法中的局部样本选择方法是一个重要的研究问题, 最常见的局部样本选择方法是基于向量夹角距离, 曾茜等[8]提出了将向量夹角大小作为待测样本与训练样本的相似度度量, 其出发点是考虑光谱向量的形态信息; 任澳等[9]提出了基于加权欧氏距离来选取训练样本, 目的是克服欧氏距离不同维度度量的影响。上述局部样本选择方法都为了达到少而精的效果, 挑选出具有典型代表性的样本, 但都没有同时考虑光谱反射率向量空间与色彩空间的信息, 仅考虑了单一的一种空间, 并不是最优的样本选择方法。光谱反射率向量是一条光滑的曲线[10], 训练样本的选择应该既要考虑光谱反射率空间距离相近, 也要考虑光谱反射率向量形状相似, 针对曾茜等提出的向量夹角距离忽略了光谱反射率向量空间距离的相近和任澳等提出的加权欧氏距离忽略了光谱反射率中形状的相似性, 本文提出一种改进加权欧氏距离, 该距离可以同时满足以上两个光谱特性来进行光谱反射率重建, 同时兼顾欧氏空间与色度空间的精度, 实验结果表明本文方法能更有效且全面地利用信息, 提高重建精度。

1 光谱反射率重建问题

相机成像的数学模型可以表示为

(1)

式(1)中:i为相机成像的第i个通道,i=1, 2, 3分别表示相机成像的RGB三个通道;Pi为相机成像的第i个通道的输出值;R(λ)为物体表面在波长为λ下的光谱反射率;E(λ)为光照条件在波长为λ下的光谱能量;Qi(λ)为相机第i个通道在波长为λ下的光谱感应值;δi为第i个通道的系统噪声。通常, 在可见光波长范围400～700 nm按10 nm等间距采样得到一个列向量为31×1的光谱反射率y。因此式(1)可以用离散形式表示为

x=My+δ

(2)

式(2)中:x为相机生成的3×1 RGB响应值向量;M为3×31的光谱响应矩阵, 该矩阵包含了成像环境的先验信息, 即传感器的光谱感应度信息和光照的光谱能量信息;y为31×1的光谱反射率向量;δ为3×1的系统噪声向量。

(3)

(4)

2 样本选择的方法

2.1 向量夹角方法

曾茜等[8]提出了利用待测样本与训练样本之间的向量夹角距离大小判断两者间的相似度, 进而筛选出更有效的样本重建光谱反射率, 如式(5)所示

(5)

式(5)中:a为待测样本向量;bi为第i个训练样本向量;l为训练样本集的数量;ei为待测样本与第i个训练样本的相似度。将向量夹角大小作为相似度, 选取前p个构成矩阵形式的色差值权重e[8], 见式(6)

(6)

(7)

式(7)中:Ystrain为前p个与测试样本相似度较高的训练样本子集的光谱反射率向量,Xstrain为对应的RGB响应值向量。该训练样本选择方法仅考虑了光谱反射率向量中曲线形态的信息, 却忽略了光谱反射率向量空间距离的相近信息。

2.2 加权欧氏距离方法

最经典的基于欧氏距离的训练样本选择方法只考虑了直线距离的接近, 没有考虑每个维度上样本分散程度的影响, 为了改善这一问题, 任澳等[9]提出了加权欧氏距离来选取训练样本, 如式(8)所示

(8)

式(8)中:d1为三维待测样本RGB向量u(u1,u2,u3)与训练样本RGB向量v(v1,v2,v3)的加权欧氏距离;sk为第k维的标准差。该方法避免了数据各维度之间尺度不一致问题, 首先, 将各维度标准化使其满足标准正态分布, 其次, 将加权欧氏距离作为相似度并进行排序, 最后, 选取前p个相似性较高的训练样本子集并对训练样本给予不同大小的权重, 缩小欧氏距离较远的样本在重建时的影响, 该方法可以提高光谱重建的效果, 但是却忽虑了光谱反射率向量曲线形态上的接近。

2.3 本文方法

针对以上两种方法均单一地考虑光谱反射率空间距离的相近或光谱反射率曲线形状的接近, 于是提出了一种基于改进加权欧氏距离的光谱重建训练样本选择方法, 其原理是既考虑光谱反射率空间距离的接近, 又考虑曲线形状上的接近。

首先, 式(9)是计算待测样本向量a=(z1,z2,z3)与所有训练样本向量bi=(xi1,xi2,xi3)之间的夹角余弦

(9)

然后, 考虑到光谱反射率向量可以看成31维向量, 其实质是一条光滑的曲线, 为了筛选出与待测样本曲线形状更相似的训练样本, 于是, 将该夹角余弦转换为具有几何距离意义的距离d2, 目的是为了让其与加权欧氏距离在同一个量纲下进行结合, 见式(10)

(10)

为了选择与待测样本相似度更高的训练样本, 本文结合加权欧氏距离d1, 提出改进加权欧氏距离d, 见式(11)

d=gd1+hd2

(11)

式(11)中:g,h的值是由经验给定, 以均方根误差最小为目的进行调参, 经过多次实验分析, 发现当g=5,h=2时重构误差最小, 在之后实验中, 均使用此参数。本文权值函数e依照相似度d考虑到距离越近赋予的权重越大, 见式(12)

(12)

2.4 三种样本选择方法在RGB中的图示比较

从图1(a-c)可以直观地看出在RGB空间中曾茜方法的向量夹角距离仅单一地考虑了光谱反射率向量形状的相似, 任澳方法的加权欧氏距离仅单一地考虑了光谱反射率向量空间中距离的相近, 而本文提出的改进加权欧氏距离, 该距离既考虑了光谱反射率曲线空间距离的接近, 又考虑光谱反射率曲线形状上的接近, 以这种改进的距离选择出最优的训练样本, 可以在保证光谱均方根误差最小的条件下, 显著降低色度误差, 提高光谱重建精度。

图1 在RGB中不同样本选择方法的图示比较(a): 曾茜方法; (b): 任澳方法; (c): 文中方法Fig.1 Graphical comparison of different sample selection methods in RGB(a): Zeng Qian’s method; (b): Ren Ao’s method; (c): The proposed method

3 实验结果与讨论

选用孟赛尔半光泽数据集(Munsell Matte), 该数据集来源于芬兰约恩苏大学[12], 其中包含了1269块在可见光波长范围内等距采样获得的31维光谱反射率样本向量。光谱反射率对应的RGB响应值为模拟Sony DXC-930 3CCD相机的光谱敏感曲线[13], 使用CIE D65标准光照, 进行数值模拟并经标准化变换到区间[0, 1]上。为了确保实验的客观性与真实性, 文中对数据集进行了随机采样的两组实验, 如图2所示, 实验一为首先随机选出1 100个样本, 再从中随机抽取200个作为测试样本, 剩余的900个作为训练样本, 通过使测试样本均方误差最小来选择模型最优参数, 并将数据集剩余的169个作为验证样本来检验光谱重建的效果; 实验二为考虑噪声影响的情况, 给RGB响应值分别添加标准差为0.01与0.001的高斯随机噪声, 模拟出有噪声数据, 随机选出800个样本, 将其分为600个训练样本和200个测试样本, 剩余的369个作为验证样本进行光谱重建效果的比较。

图2 数据集分配Fig.2 Data set allocation

实验结果的对比使用均方根误差RMSE和色度误差ΔEab, 见式(13)和式(14)。

(13)

(14)

3.1 样本选择的效果

为了更加直观地验证文中方法样本选择的效果, 随机挑选4个验证样本进行重构, 得到光谱反射率曲线以及误差曲线, 图3(a-d)中可以看出, 文中方法重建的光谱反射率与实际的基本吻合, 其中样本8#、 41#、 113#, 曲线十分接近, 效果较好, 除了样本130#曲线尾部重建效果稍微逊色一点。图3(e-h)直观地展示了文中方法重建的光谱反射率误差与理想误差基本接近, 除了样本130#曲线只有尾部误差波动幅度稍大, 其他波段几乎重合。由此说明文中的方法重建的样本与实际测量数据更接近, 重建效果更佳。

图3 重构光谱反射率曲线及误差波动曲线的比较(a): 样本8#; (b): 样本41#; (c): 样本113#; (d): 样本130#; (e): 8#样本反射率误差; (f): 41#样本反射率误差; (g): 113#样本反射率误差; (h) 130#样本反射率误差Fig.3 Comparison of reconstructed spectral reflectance curve and error fluctuation curve(a): Sample 8#; (b): Sample 41#; (c): Sample 113#; (d): Sample 130#; (e): 8# sample reflectance error; (f): 41# sample reflectance error; (g): 113# sample reflectance error; (h) 130# sample reflectance error

3.2 重建光谱反射率精度比较

从表1可以看出, 在两种实验条件下, 文中方法的光谱平均均方根误差和平均色差均是最小的, 从实验一的平均色差降低到0.587 9, 最大色差为4.511 6, 色差的标准差为0.584 9, 平均均方根误差降低到0.009 8, 最大均方根误差为0.048 8, 均方根误差的标准差为0.009 3, 本文的方法在保证均方根误差最小的条件下, 重建后的色度误差有明显地降低; 实验二的平均色差降低到0.689 2, 最大色差为16.378 5, 平均均方根误差降低到0.011 3, 最大均方根误差为0.109 1。从实验一与实验二的结果可以看出来训练样本集最大误差会相对小一点, 这是因为训练样本与测试样本可以筛选出更接近的样本。相比任澳方法, 该方法在保证均方根误差最小的条件下, 能够显著地降低色度误差, 光谱反射率的重建精度有了大幅度地提升。为了考虑采集颜色数据中的噪声, 本文给RGB数据在三个通道添加噪声分别为均值为0, 标准差为0.01和0.001的高斯噪声, 从表2中可以看出, 添加噪声后, 文中方法的光谱平均均方根误差和平均色差依旧保持最小, 说明该方法能够更好的利用局部样本的信息, 而且具有较好的抗干扰能力, 根据改进距离的大小从而施加不同的权重, 对模型进行修正, 因此, 基于改进加权欧氏距离选择样本的重建光谱精度明显提高。

表1 2种局部样本选择方法的重建精度比较Table 1 Comparison of reconstruction accuracy of two local sample selection methods

表2 不同噪声对2种局部样本选择方法的重建精度比较Table 2 Comparison of reconstruction accuracy of two local sample selection methods with different noises

4 结论

针对光谱反射率重建中如何选择更有效的训练样本问题, 基于向量夹角距离仅考虑光谱反射率向量形状的相似, 与加权欧氏距离仅考虑光谱反射率向量空间距离的相近, 本文提出了改进加权欧氏距离, 该距离同时考虑了光谱反射率向量形状的相似与空间距离的相近, 与待测样本越相似的训练样本施加较大的权重, 在光谱重构精度与样本选择的效果两方面进行对比分析。实验结果表明本文的方法重建光谱反射率的平均色差与平均光谱均方根误差均最小, 尤其在保证均方根误差最小的条件下, 显著地降低了色度误差, 不仅能够充分利用样本信息, 而且在添加噪声后依旧保持最小均方根误差与色度误差, 具有较好的抗干扰能力, 较显著地提高了色度精度与光谱精度, 能够更好地满足颜色的真实再现。