赵茂程 陈加新 邢晓阳 汪希伟 顾 越 李 忠
(1.南京林业大学机械电子工程学院, 南京 210037; 2.南京林业大学机电产品包装生物质材料国家地方联合工程研究中心, 南京 210037)
近年来,高光谱成像技术由于其快速、无损的特点,被广泛地应用于农林产品质量安全检测工作中[1-7],其中推扫式高光谱成像(Pushbroom hyperspectral imaging, P-B HSI)因在空间和光谱方面都具有很好的分辨率而备受关注[8-10]。
高光谱图像中的每个像素点都包含特定位置的光谱信息,它可以实现被测样本组分含量分布的可视化[11],以便实现品质在线检测[12]。但是这些可视化图像中常出现多条贯穿整个样本区域的纵向条纹,例如文献[13]建立的猪肉腌制过程中水分变化的空间分布图像;文献[14]建立的三文鱼脂肪含量分布图像;文献[15]建立的变质牛肉掺假物在鲜肉糜中分布的可视化图像。这种条纹还会出现在图像处理工作中,如文献[16]将玉米根茬从裸露地表背景中分离。这些条纹并非样本自身的纹理,而是图像中的条纹噪声,其影响检测精度,干扰可视化图像中靶标物的判断,阻碍图像中靶标物与背景的分离。
目前,对于推扫式高光谱成像条纹噪声问题的研究主要是针对卫星遥感上的高光谱图像,处理方法包括数字滤波法[17]、增益估计法[18]、匹配法[19]、变分法[20]、图像分解法[21]等,这些方法对图像中条纹噪声有一定的抑制效果,但是会改变相邻没有条纹噪声区域的像素值,容易损失原始图像中的真实信息,降低空间分布预测图像的可信度。而对于室内高光谱成像系统应用,可以对系统条纹噪声进行标定,通过使用专用的去条纹校正,更好地解决条纹噪声问题。而目前推扫式高光谱成像固有的条纹噪声对生物对象品质指标空间分布预测的影响及消除方法尚无专门研究报道。
我国是世界最大的银杏叶生产国和出口国,由银杏叶提取物制成的各类食品、保健品、药品等已超过了100种,市场每年对银杏叶有数以万吨的需求量[22]。银杏叶的含水率可以用于监测银杏树苗对水分的需求情况,且在收购时有助于准确预估干叶质量。更重要的是,对化学计量学可视化图像中条纹噪声分析的关键是能够将其与样本纹理相区别,以验证其对细节部分的影响,而含水率对叶片表面的伤痕非常敏感,在可视化图像中可以呈现伤痕的空间细节。因此,本文以银杏叶含水率为例,基于化学计量学进行指标空间分布预测,利用标定法去除推扫式高光谱成像中的条纹噪声,以改善含水率预测的可视化效果。
1.1.1实验样本
银杏叶样本采自江苏省徐州市邳州市四户镇银杏种植基地,于2020年8月12日采摘银杏叶若干片,当天通过保温箱带回实验室,并置于冰箱-18℃环境下保存。在第5~15天,每天22:00从冰箱中取出无破损的银杏叶15片,以吸水纸包裹,放置于室温(20℃)解冻9 h,在第2天07:00将叶片表面水擦干,然后先采集银杏叶鲜叶质量,再采集高光谱图像,最后干燥后采集银杏叶干叶质量,计算含水率。
1.1.2高光谱成像系统
高光谱成像检测平台包含高光谱成像系统、一条白色食品级传送带(HSIA-CSD800型)、一套由12只50 W的卤素灯与一个穹顶构成的漫反射照明系统,以及一台计算机。高光谱成像系统为四川双利合谱成像技术有限公司生产的GaiaField-N17E-N3型系统,主要包括成像光谱仪(Imspector N7E型,900~1 700 nm)、探测器(InGaAs型相机)、镜头(OLES22型)。其中成像光谱仪光谱分辨率为5 nm,被测样品置于传送带上的载物台上,由步进电机驱动,整个检测过程置于暗室中,以屏蔽其他杂散光对数据采集的影响。
1.2.1含水率测定
采用干燥法对银杏叶含水率进行测定。先用JA003型电子天平(上海浦春计量仪器有限公司)称量鲜叶质量,然后将叶片放入牛皮信封中,将其置于DHG-9246A型电热恒温鼓风干燥箱(上海精宏实验设备有限公司)中,于80℃条件下干燥2 h,使水分完全蒸发,再称量干叶质量。银杏叶含水率计算方法为
(1)
式中Mf——鲜叶质量,g
Md——干叶质量,g
1.2.2高光谱图像采集
高光谱图像数据由计算机中Specview软件获取,将高光谱相机与照明系统预热30 min后进行银杏叶图像数据采集。为了避免采集的图像失真,检测平台经过多次调整以获取最佳数据采集参数:成像光谱仪的曝光物距为430 mm,曝光时间为6 ms,传送带移动速度为2.8 cm/s,扫描距离为200 mm,图像分辨率为640像素×580像素。
1.2.3图像预处理
(1)反射率校正
由于高光谱相机在图像采集过程中存在暗电流影响,且光源系统照明通常不均匀,从而导致采集的图像中有大量噪声,因此需要对采集的图像进行反射率校正,以消除暗电流及光源不均匀的影响[23]。校正方法为
(2)
式中R——高光谱图像反射率
Ro——原始高光谱图像反射率
Rb——黑色背景高光谱图像反射率
Rw——白板高光谱图像反射率
(2)传统均值滤波图像增强
平滑空间滤波一般通过模糊处理达到降低图像噪声的效果,传统均值滤波是其中的线性空间滤波[24],它可以对图像中每个像素点进行处理。传统均值滤波主要是将图像中每个像素点的值用滤波器模板内像素的平均值代替,从而抑制噪声的影响,本文采用圆形均值滤波模板,当半径为3像素时,条纹噪声被有效消除。
虽然传统均值滤波可以削弱条纹噪声的影响,并且算法简单,计算效率高,但是它使图像变得模糊,图像中的细节被严重削弱,真实信息丢失。
1.2.4去条纹标定法
去条纹标定法同样也是对图像中每个像素点进行校正处理。首先将整个高光谱采集系统进行标定,计算出每个像素点在不同亮度下的误差,然后在采集新图像时,对每个像素点进行校正。校正方法为
(3)
式中Iout(w,r,c)——经去条纹标定法处理后高光谱图像立方体中第w波段、第r行、第c列灰度
Iin(w,r,c)——原始高光谱图像立方体中第w波段、第r行、第c列灰度
去条纹标定法可以有效消除高光谱图像中的条纹噪声,并且不会影响图像中的细节,使真实信息保存良好。
1.2.5建模与评价
(1)偏最小二乘回归法(PLSR)预测模型
偏最小二乘回归法[25]主要用于多因变量对多自变量之间关系建立的模型,是一种广泛应用于光谱分析的多元回归方法。这种方法将因变量和自变量数据矩阵同时进行分解,在自变量分解过程中引入因变量,以建立图像数据中自变量主成分与样本中被测组分含量之间的关系。PLSR本质上是一个线性预测模型,公式为
(4)
式中Y——模型预测值
β0——增益常数
Xw——第w波段图像
βw——第w波段图像的增益系数
n——模型所用波段的数量
PLSR模型中,βw越大,其对预测结果的贡献越高,相应波段高光谱图像的放大倍率也越高。然而,此时图像中蕴含的条纹噪声也将被放大。各PLSR模型的波段增益系数在本文中用于对指标分布预测结果图中条纹强度变化趋势的分析。
(2)模型评价
为了得到最佳性能的模型,采用交叉验证法(Cross validation,CV)确定最优主成分数。通过取得最小交叉验证均方根误差(Root mean square error of cross validation,RMSECV)获得最佳潜变量数。并采用决定系数R2以及均方根误差(Root mean square error, RMSE)来验证模型的效果,通常来说,R2越大(最大值为1),RMSE(最小值为0)相对于实测值越小,模型效果越好。
1.2.6含水率可视化
高光谱成像能够通过预测模型对样本高光谱图像中每个像素的含水率进行预测,从而得到被测组分含量的空间分布图像。分布图像的准确性受预测模型性能以及图像噪声的影响,预测模型性能可通过调整模型参数来改善;而对于图像噪声,部分可以通过反射率校正消除,而另一部分影响较为明显的条纹噪声,可通过去条纹校正削弱甚至消除,以获得最佳叶片含水率分布图。
2.1.1银杏叶光谱曲线提取
图1 银杏叶原始反射率光谱曲线Fig.1 Original reflection spectrum curves of ginkgo leaves
由于称量时按单片叶子称量,且每幅高光谱图像中只包含一片叶子,因此将图像中叶片的表面作为感兴趣区域。在1 191 nm处,每幅图像反射率阈值设置为0.2,然后经过向内腐蚀3个像素,再向外膨胀3个像素,可有效提取银杏叶图像感兴趣区域的光谱信息。又因为采集的高光谱图像在874.0~1 045.1 nm和1 556.5~1 731.0 nm范围内噪声干扰很大,因此删除这两个光谱波段。当用去条纹标定法校正后建立银杏叶含水率分布图像时,图像在1 179.2 nm和1 523.0 nm处存在坏点,使分布图像中存在两条明显的深色纵向条纹,因此将这两个波长也删除。最终选择的有效光谱波段为1 046.7~1 177.5 nm、1 180.9~1 504.6 nm和1 507.9~1 554.9 nm,光谱曲线如图1所示。
从图1中可以看出,光谱曲线在1 200 nm左右存在微弱的吸收峰,在1 400 nm左右存在明显的吸收峰。在1 200 nm处为C—H的伸缩振动的二级倍频信息,是纤维素的吸收谷[26];在1 400 nm附近为O—H的伸缩振动的一级倍频信息,此处主要为水分的吸收谷[27]。
2.1.2银杏叶含水率统计
本实验共采集165个样本,剔除异常数据的样本,最终剩余155个样本。根据含水率排序,以留出法将117个样本划分为训练集,38个样本划分为预测集。如表1所示,训练集与预测集的平均值和标准差相近,说明样本集分布均匀,且总样本含水率在56.86%~73.22%之间,样本之间有明显的差异性,有利于全波段的PLSR建模。
表1 155份银杏叶样本含水率Tab.1 Moisture content of 155 ginkgo leaves
首先将原始高光谱图像进行反射率校正,得到原始反射率图像。然后将原始高光谱图像进行传统均值滤波增强,均值滤波采用圆形滤波器。当半径为3个像素时,条纹被有效削弱,再对增强后的图像使用反射率校正,得到经传统均值滤波增强后反射率图像。最后使用去条纹标定法对原始高光谱图像进行处理,并进行反射率校正,得到经去条纹标定法处理后的反射率图像。
为体现去条纹标定法的去条纹效果,选择叶片表面存在折痕、信息比较丰富的146号样本进行分析,分别选取该样本在1 045.1 nm处的原始反射率高光谱图像、经传统均值滤波增强反射率高光谱图像和经去条纹标定法处理的反射率高光谱图像,并将它们的叶片区域置于同一黑色背景中,最后将图像的色带刻度值范围设置为25%~40%,结果如图2所示。其中,图2a叶片区域存在明显的亮暗交替的纵向条纹,这些条纹穿插于银杏叶叶脉之间,将叶脉打断;图2b中,经过传统均值滤波图像增强后,银杏叶的反射率图像变得模糊,叶脉无法看清,条纹噪声虽然被削弱,但是依然存在,且被加粗;图2c中,经过去条纹标定法处理后,银杏叶表面无明显条纹,叶脉清晰,去条纹噪声效果明显。比较发现,推扫式高光谱图像的条纹噪声呈现纵向分布、亮暗交替;传统均值滤波增强将每个像素点的灰度以其周围像素点的平均灰度代替,虽然削弱了条纹噪声的强度,但是会让条纹噪声变粗,使图像质量降低,原始信息丢失;去条纹标定法是对每个像素点的偏差进行增减,相邻像素点之间不会产生影响,可以很好地抑制条纹噪声,并保证图像质量,保留图像原始信息。
图2 银杏叶反射率高光谱图像(1 045.1 nm)Fig.2 Hyperspectral reflectance images of ginkgo leaf at 1 045.1 nm
图3 化学计量学模型的预测能力Fig.3 Predictive accuracy of chemometric models
2.4.1含水率可视化图像建立
在图4中,每幅叶片图像大部分区域偏于红色,而右上角区域和叶柄区域都呈现绿色甚至蓝色,说明这两个区域含水率低于其他区域。对比银杏叶原始样本,鲜叶中右上角区域泛黄,呈枯萎状态,这主要是因细胞内水分流失而导致含水率降低;鲜叶中叶柄区域由于趋于木质化,因此叶柄区域的含水率也相对较低。每幅叶片图像右下角细节放大图是由相应叶片图像上白色方框区域放大两倍得到,从图4a~4c、图4f~4h以及图4k~4n中可以看到该区域有一条向右下倾斜的“疤痕”,它的颜色比周围偏绿,即含水率比周围低,对比银杏叶原始样本,该区域上存在一条折痕,折痕处的细胞壁被损坏,导致细胞内的水分流失,从而使折痕处含水率比周围含水率低。结果表明含水率可视化图像可以体现样本细节,反映样本的真实信息。
2.4.2主成分数对可视化图像的影响
图4a~4e为原始图像银杏叶含水率可视化图像随主成分数变化的情况。从中可以看出,当主成分数为6时,条纹噪声最小,图像中细节清晰,图像可信度最佳;主成分数大于6后,条纹噪声越来越严重,叶脉信息逐渐丢失,枯萎区域逐渐减小,“疤痕”渐渐消失,图像可信度逐渐降低;主成分数为10时,叶柄区域含水率分布情况与叶片区域一致,与实际情况不符,图像可信度极差。
图4 不同处理方法的银杏叶含水率可视化图像Fig.4 Visualization images of water content of ginkgo leaf with different preprocessing methods
图4f~4j为经传统均值滤波增强图像建立的银杏叶含水率可视化图像随主成分数变化的情况。从中可以看出,主成分数为6时,条纹噪声很小,除了因传统均值滤波增强的特性导致叶脉无法显示外,其他细节略微模糊,图像可信度较好;主成分数大于6后,条纹噪声逐渐增大,“疤痕”渐渐消失,图像可信度降低;主成分数为10时,叶柄区域含水率分布情况与叶片区域一致,与实际情况不符,图像可信度极差。
图4k~4o为经去条纹标定法处理的图像建立的银杏叶含水率可视化图像随主成分数变化的情况。从中可以看出,主成分数分别为6、7和8时,没有明显的条纹噪声干扰,图像中细节部分都被保留,图像可信度都很好;当主成分数为9时,出现微弱的粗状纵向条纹,细节被削弱,图像可信度变差;当主成分数为10时,粗壮条纹明显,“疤痕”消失,叶柄区域含水率分布同样与叶片区域一致,与实际情况不符,图像可信度变得极差。
总之,随着主成分数的增加,化学计量学模型增益系数成倍增大,导致原始图像、经传统均值滤波增强图像以及经去条纹标定法校正的图像建立的含水率可视化图像中,条纹噪声和其他噪声逐渐增大,图像质量逐渐降低;而从图3中看到,随着主成分数从6增加至10的过程中,3种图像的化学计量学模型预测能力逐渐提升,当主成分数为10时,达到最高,这与相应的可视化结果相悖。这表明受到推扫式光谱成像本征条纹噪声缺陷的影响,高准度化学计量学模型求得的像素光谱对指标的空间分布预测可信度不高,从而使其应用受到很大限制。
2.4.3去条纹标定法与均值滤波增强法比较
2.4.4条纹噪声强度影响因素
图4中,随着主成分数的增加,3种处理方法构建的含水率可视化图像中条纹噪声强度逐渐增加。
进一步对随主成分数从6增至10时3种预处理方法下建立的PLSR模型的波段增益系数进行分析,分别计算每个模型的波段增益系数的标准差、最大值和最小值。如图5所示,3条曲线上的点分别表示每个模型的波段增益系数的标准差,在每个主成分数处,工型图的下方表示增益系数最小值,上方表示最大值;蓝色线条、绿色线条、红色线条分别为原始图像、传统均值滤波增强图像、去条纹标定图像的增益系数。图中两条红色水平参考线表示波段增益系数分别为1和-1:当某波段的化学计量学模型增益系数介于两者之间时,即绝对值小于1时,对该波段图像中的数值及噪声起缩小作用,否则起放大作用。从图中可以看到,3种PLSR模型的波段增益系数的标准差、最大值和最小值变化趋势相似,它们的绝对值都随主成分数的增加而增大;当主成分数为6和7时,增益系数的绝对值都小于1,图像中的数值被缩小,条纹噪声被抑制;当主成分数为8时,增益系数标准差和最小值的绝对值仍然小于1,最大值略大于1,大多数波段图像中的数值仍被缩小,条纹噪声相对主成分数为7时略有增加;当主成分数为9时,增益系数标准差小于1,最大值和最小值的绝对值都大于1,更多波段的图像数值被放大,条纹噪声被放大;当主成分数为10时,增益系数标准差、最大值和最小值的绝对值都大于1,大部分波段的图像数值被放大,条纹噪声也被进一步放大。波段增益系数增大,条纹噪声增强,这与图4中银杏叶样本图像中条纹噪声的变化趋势一致。
图5 不同主成分数预测模型波段增益系数的变化趋势Fig.5 Spectral gains of chemometric models vs number of principle components
研究表明,当主成分数增加时,模型的波段增益系数增大,导致了化学计量学可视化图像中条纹噪声逐渐加重。这意味着高预测能力的化学计量学模型,如果其波段增益较大,将更易受条纹噪声干扰。因此,一方面高预测能力的化学计量学模型不一定适用于指标分布的可视化;另一方面,去条纹校正从源头消除噪声,在保证指标分布可视化图像中空间信息不受固有条纹噪声干扰的情况下,在实际应用中可以采用波段增益系数更高、预测能力更强的化学计量学模型对农林产品品质进行空间分布预测。
(1)比较3种反射率图像发现:反射率校正无法削弱条纹噪声;传统均值滤波图像增强可以减少条纹噪声,但图像中条纹噪声仍然明显;去条纹标定法可以很好地抑制条纹噪声,图像中无条纹噪声干扰。
(2)比较3种图像建立的PLSR模型准度发现:去条纹标定法和传统均值滤波增强均不会对模型的预测能力产生明显影响,随化学计量学模型波段增益增加,三者预测准度相当。
(4)比较3种图像建立的PLSR模型波段增益系数发现:随化学计量学模型波段增益系数的增大,可视化图像中的条纹噪声逐渐恶化。
(5)推扫式光谱成像由于本征条纹噪声影响,高准度化学计量学模型不一定适用于像素光谱,因此不一定能对靶向指标的空间分布可视化进行预测;而经过去条纹标定法处理,能够明显抑制高光谱图像的本征条纹噪声,保证可视化图像免受条纹噪声干扰的同时,使得在指标预测中可以使用具有更大波段增益系数、更高预测准度的化学计量学模型,从而更加可信地对靶向指标的空间分布情况进行预测。