基于可见/近红外高光谱的八角茴香与莽草无损鉴别

2019-12-06 03:04贾贝贝
农业机械学报 2019年11期
关键词:像素点波长光谱

王 伟 赵 昕 褚 璇 鹿 瑶 贾贝贝

(1.中国农业大学工学院, 北京 100083; 2.河北大学质量技术监督学院, 保定 071002;3.仲恺农业工程大学机电工程学院, 广州 510225)

0 引言

八角茴香,又称“八角”,作为食品加工业及香料业中的原料被广泛使用。有毒草药“莽草”同样为木兰科八角属植物[1-2],与八角外形十分相似,莽草中含有莽草毒素[3],少量误食即会损害人呼吸中枢及血管运动中枢,严重时会对大脑造成损害[4-6]。国内曾多次出现莽草引起食物中毒事件[7-10]。

八角价格是莽草的2~3倍,市场上有不良商家将莽草混在八角中以降低成本[11-12]。这些掺假的八角一旦食用将会引发食物中毒事件,存在巨大安全隐患。故将毒莽草从八角中无损、快速、精确地检出具有重要意义[13]。

目前针对八角伪品的鉴别技术有性状鉴别[14-15]、显微鉴别[16]、气相色谱-质谱法[17]、红外光谱法[18]、紫外光谱[19]等。但上述鉴别方法样品准备复杂,检测速度慢,且需要专业人员鉴别。目前,国内有学者利用电子鼻和傅里叶变换拉曼光谱较好地分辨了八角及其伪品[20-21]。然而,在拉曼光谱研究中,实验仅采集了样品断面的光谱数据,只大致分析了八角与其伪品的光谱特征差异,没有进行具体的分类验证[22-23]。在电子鼻研究中,仅分析了研磨后的样品粉末,且数据采集时,需要特殊的进样装置,增加了便携式和在线检测仪器的开发难度[24]。文献[25]采用短波红外(SWIR)高光谱成像技术(920~2 514 nm)鉴别八角和日本莽草(Illiciumanisatum),实现了八角和日本莽草完整样本粒的判别分析,外部验证集准确率可达97%。然而SWIR高光谱成像仪因其探测器不易制作而导致成本过高,因此,有必要研究利用普通可见/近红外波长光谱范围的高光谱技术对八角及其伪品进行鉴别研究的可行性。

本文基于可见/近红外高光谱成像技术研究八角及其伪品莽草的无损快速鉴别方法,并结合光谱与图像分析方法、对比度增强线性拉伸和区域标记,实现单粒样本ROI平均光谱的自动提取。采用连续投影算法选择建模最优波长,建立多光谱偏最小二乘分类判别模型,为八角与莽草便携式在线检测仪器的开发提供技术支撑。

1 材料与方法

1.1 材料

实验所用八角及莽草样本,产地均为云南省,收获时间均为2018年。两类样品分别从当地某大型超市与正规中药店购买。随机选取八角和莽草的完整样本用于之后的高光谱数据,八角与伪品莽草如图1所示。

图1 八角与伪品莽草(用红色圈圈出)Fig.1 Star anise and its fake shikimmi

1.2 高光谱数据采集

实验所用高光谱成像系统主要由Image-λ V10型高光谱相机(北京卓立汉光仪器有限公司)、FV-BSLE3200型卤钨灯(美国Photoflex公司)、WN500TA1000H型运动控制平台(北京微纳光科仪器(集团)有限公司)、计算机和采集控制软件组成。成像仪光谱范围为380~1 012 nm,分辨率1.90 nm。

16个八角样本按照4行×4列背部朝上的方式放置在一个白色的亚克力板上。采集过程中亚克力板随平移台运动,高光谱相机连续线扫描,完成一幅高光谱图像数据的采集(采集的高光谱数据伪彩色图如图2所示)。实验共采集了3幅八角高光谱数据和3幅莽草高光谱数据,即48粒八角样本和48粒莽草样本。八角和莽草中每类随机选择32粒作为校正集(共64粒)用于分类模型的建立, 每类中剩余的16粒作为验证集(共32粒)。除此之外,还采集了八角和莽草掺杂在一起的3幅高光谱图像数据,用作模型性能的外部验证数据。3幅掺杂的高光谱图像中八角与莽草个数比分别为8∶8、12∶4和15∶1。掺杂样本作为外部验证数据。

图2 八角样本高光谱数据伪彩色图Fig.2 Pseudo-color image of octagonal hyperspectral

实验样本高光谱数据采集前,通过采集参考白板和关闭高光谱相机镜头盖获得全白标定数据Rw和全黑标定数据Rd。对采集的样本原始数据Ro作黑白校正,获得反射率校正后数据Rc,计算公式为

1.3 单粒样本ROI平均光谱自动提取

在提取每粒八角和莽草样本平均光谱数据时,为了节省手动选择感兴趣区域(Region of interest,ROI)耗费的时间与劳力,并为进一步开发在线或便携式检测设备提供方法基础,结合被测样本的光谱特征和图像分析方法提出了一种单粒ROI平均光谱自动获取方法。具体步骤为:首先利用波段运算中的波段差算法,使850 nm和450 nm下图像做差,去除高光谱图像中的大部分背景;利用图像对比度增强方法中的线性拉伸再结合阈值法,消除图像中由于样本高度造成的阴影,利用mask方法获得仅包含样本像素点信息的掩膜高光谱数据;将掩膜数据导入Matlab中,选取某一波段下图像数据,对该图像分别作二值化变换和区域标记;根据区域标记结果,提取并计算每一个标记样本区域的所有像素点的平均光谱,从而实现每粒样本平均光谱的快速自动获取。

1.4 多光谱模型建立

实验选用偏最小二乘判别(Partial least square discrimination analysis,PLSDA)方法建立分类预测模型。将SPA方法挑选出的特征波长下光谱值作为输入数据建立线性判别模型。模型的分类预测效果通过校正集、五折交叉验证和验证集效果综合判定。

2 结果与分析

2.1 基于光谱和图像特征的平均光谱提取

对黑白校正后的高光谱数据进行观察分析,可得850 nm和450 nm波长下图像中的样本像素点灰度相差较大,但是背景以及由于样本高度造成的阴影区域像素点的灰度相近。采用波段差算法,使850 nm下图像减去450 nm下图像,放大图像中样本像素点的灰度与背景像素点灰度之间差异,结果如图3所示。但是样本像素点灰度与阴影区域像素点的灰度仍相近,需进一步放大样本与阴影差异。

图3 图像背景信息去除Fig.3 Image background information removal

采用图像增强方法中的线性拉伸将原始图像的灰度范围放大到所允许的整个灰度范围内,实现样本像素点与阴影区域像素点之间灰度的差异放大。线性拉伸后结果如图4所示,阴影干扰基本被消除。再结合阈值法,对图像进行掩膜,获得仅包含样本像素点灰度的高光谱数据。

图4 线性拉伸结果Fig.4 Linear stretch result diagram

将掩膜后高光谱数据导入Matlab分析软件中,随机选取其中某一波段下图像。对图像作二值化处理后,采用bwlabel函数进行区域标记,并采用tabulate函数统计查看区域标记结果。发现结果中标记的区域个数大于图像中的样本个数(16个),观察区域标记结果图像,发现图像中样本区域均标记正确,且像素数大于1 000;其余多标记出的区域均为样品区域外的离散点,且像素数小于1 000。采用bwareaopen函数设定阈值为1 000,删除二值化变换后结果图中面积小于1 000的对象,并重新对处理后图像区域标记,结果如图5所示。图中每一个样本都被标记为一个单独的区域,利用find函数结合for循环获得每一个样本区域中所有像素点的坐标数据,提取坐标下所有像素点的光谱数据,用mean函数求均值,可获得每个样本的平均光谱曲线。

图5 区域标记结果Fig.5 Result of area marking

2.2 光谱特征分析与光谱判别模型建立

2.2.1原始光谱特征分析

图6所示为八角和莽草的原始光谱曲线。两者的反射光谱曲线在整体波长范围内呈增长趋势,均不存在较明显的波峰或波谷特征。但400~660 nm范围内两条曲线的增长速度明显低于660~960 nm内的增长速度,960 nm之后,光谱曲线趋于平缓,幅值几乎保持不变。即八角和莽草的反射光谱在两个增长范围内(400~660 nm和660~960 nm)的增长速率差别较明显。

图6 八角和莽草的平均原始光谱曲线Fig.6 Average original spectral curves of star anise and shikimi

2.2.2基于SPA最优波长的多光谱模型

实验首先应用全波长数据建立了PLSDA模型,模型对样本的分类结果为100%。尽管如此,该模型需要利用所有波长下的光谱数据,因此计算量大、运算时间长,不适宜在线快速检测应用;同样因变量即波长个数过多,也不适宜构建相应的便携式检测仪器。因此,本文利用SPA方法挑选特征波长,以便进一步构建相应多光谱PLSDA分类模型,以减少建模输入变量,节约成本、尽最大可能地缩短计算时间,并可以依据所选波长,通过选取相应中心波长的LED,结合相应探测器件,使实用便携或在线快速检测应用成为可能。

SPA方法选取的结果如图7所示。选取的4个最优波长为533、617、665、807 nm,其中665 nm位于两个增长区间的分界点附近,533 nm和617 nm位于第1个增长范围内,807 nm位于第2个增长区间内,且位于两类样本平均光谱曲线的幅值之差最大处附近。不仅如此,所选取的4个波长中3个均位于可见光范围,对于相应LED照明光源的易于获得、降低成本和相应仪器研制的可行性等方面,均具有重要意义。

图7 SPA最优波长选择结果Fig.7 SPA optimal wavelength selection results

利用所选的4个最优波长的光谱数据建立相应的PLSDA多光谱分类预测模型,模型预测结果的混淆矩阵如表1所示。其中五折交叉验证中仅有1个莽草样本被模型错误地判别为八角,对照原始样本核实,该莽草样本的角瓣数量、色泽与形态与八角非常相近。其他校正集和验证集的所有样本均判别正确。交叉验证的总体判别准确率为98.4%,可以满足实际检测需求。

表1 多光谱PLSDA模型对八角掺假分类预测效果Tab.1 Prediction effect of multispectral PLSDA model on octagonal adulteration classification

2.3 外部验证集的可视化结果

为进一步验证模型的预测性能,基于所构建多光谱模型,重新采集3幅高光谱图像用作模型的外部验证数据,预测结果的可视化图如图8所示。

图8 外部验证集预测可视化结果Fig.8 Predicted visual results of external validation sets

可见,3幅掺杂的高光谱图像中的2幅,即八角/莽草掺杂比例分别为15∶1(图8a)和8∶8(图8c)的所有样本都被正确地识别出来,图8b中仅有1粒莽草样本被误判为八角,如前述,被误判为八角的莽草样本与八角在颜色和形态上极其相似,除此以外,该样本尚存在可见的背景噪声,这也是导致误判的可能原因之一。总体分类准确率为47/48×100%=97.9%。以上结果表明,所建立四波长多光谱模型对八角和莽草具有良好的分类识别结果,可在此基础上开发在线或便携式检测设备或仪器,具有一定的实际应用价值与前景。

2.4 与常规图像处理方法的比较

如前述,尽管莽草和八角的相似度能达到90%,但无论是从色泽还是外观形态上,两者有着肉眼可辨的差异,例如,真八角瓣看上去肥硕、圆钝,有8个角,角尖平直;莽草比较瘦弱,有11~13个尖角,角尖弯曲。为此,追加了采用图像处理的相关实验,对比两种技术对图8外部验证数据集的判别效果,并对比分析两种技术的优越性。

2.4.1八角中莽草辨识的图像处理方法

与从高光谱图像中提取目标相似,对样品的图像数据,首先利用RGB三通道间的运算,一定程度去除图3所示阴影。经二值化联合开、闭运算后,图像中噪声可有效去除,实现各目标的提取(目标设定为白,背景为黑),如图9a所示。然后,通过bwlabel函数,将每个目标标记为单独区域。进一步计算每个标记区域的最小外接矩形与形心,并以形心为圆心,外接矩形宽的0.5倍与宽的0.38倍为半径画一个圆环,圆环几乎与目标每个角瓣相交,如图9b所示。将圆环和目标每个角相交的区域保留,剩余部位标记为黑,如图9c所示。然后统计每个样本标记区域内圆环与角瓣相交部分的像素,以及相交区域数量,获得每个样本标记区域中相交区域的平均像素数。

2.4.2图像处理对外部验证集的判定结果

由于莽草的角多且细,求取像素数均值后其数值相对较小;而八角角少且肥硕,其像素数量会稍大,基于此,通过设定阈值来最终识别莽草和八角。本研究中,当平均像素数大于193时认为是八角,小于193时认为是莽草,用不同的颜色分别进行标记。

图9 外部验证集预测图像处理结果Fig.9 Predicted image processing results of external validation sets

图10 图像处理对外部验证集预测结果Fig.10 Predicted visual results of external validation sets

对图8外部验证集原始图像的识别结果分别如图10所示。可见莽草的识别率为100%,八角中有3个误判为莽草,对照原图观察,误判的八角均是角瓣小且细的,虽然角瓣数在8瓣左右,但是每个角都很细,与正常八角有较大差异,整体准确率为93.75%。

2.4.3多光谱与图像处理技术比较

(1)判定准确率

对从八角中识别莽草的准确率方面来看,常规图像处理技术的识别结果(总体准确率93.75%),不如多光谱准确率(总体准确率98.4%)高。虽然,还有更好的方法或更多的步骤可以用来进一步增强图像处理的结果准确率,例如,继续采取相关图像预处理算法以进一步降低背景等噪声,但步骤越繁琐,越易导致方法的过拟合性,即导致其通用性降低。

(2)图像或光谱信息的预处理

在利用常规图像处理技术时,针对不同的应用,考虑到光源、环境条件、获取速度等多方面因素导致的噪声,基本都需要背景去除、图像增强等图像预处理过程,以获取纯净目标图像,而这通常是复杂繁琐的过程。而所开发的多光谱方法,除了需要获取相应光斑所反射的有限波长处平均光谱信息,不再需要任何包括背景去除等类似图像处理的任何步骤。即一旦采用高光谱成像工具完成判别模型的建立,仅需将样本光谱代入模型即可完成判别,不需再对高光谱数据进行背景去除。对比高光谱数据的去背景、降噪操作,常规图像预处理繁琐复杂且效果相对不佳。本文所述面向多光谱应用开发,利用高光谱数据所提取的平均光谱曲线,以及同步获得的单一波长的图像,通过图谱交互分析实现图像背景去除和光谱图像增强,在方法简易的同时确保了纯净光谱信息的获取。

(3)计算时间

利用常规图像处理方法,在所有判定参数确定的条件下,对外部验证数据集进行判别,判别程序的总运行时间达20.66 s。这仅是静态处理图像,若进行动态判别应用,需要对图像视野范围内动态所获图像执行包括预处理在内的每一个步骤,耗时更长。

而对于多光谱检测应用而言,虽然方法建立所依托的高光谱成像基础工具成本高,高光谱图像获取和图谱分析过程略显繁琐,但一经建立相应多光谱模型,则在实际应用中,不再需要高光谱工具,仅需要采用诸如相应波长的LED光源,加上相应探测器例如光电管或CCD即可获取相应波长的光谱数据,并代入多光谱判别模型公式,即可完成检测,即仅需获得光斑的多光谱反射信息所需的毫秒级曝光时间,以及数据读取与处理时间,总计算时间最大也仅有百毫秒甚至更少。

3 结论

(1)基于高光谱成像技术开发了一种鉴别八角及其含毒伪品莽草的快速检测方法。利用样本在400~1 000 nm范围内反射率逐渐递增的光谱特征,采用850 nm和450 nm的波段差运算去除了高光谱数据中的背景信息,利用线性拉伸方法去除了数据中由于样本高度造成的阴影噪声,最后利用区域标记方法实现了高光谱数据中每一粒样本平均光谱曲线的自动提取。

(2)采用SPA变量优选方法选取4个最优波长(533、617、665、807 nm),并基于4个波长下原始光谱数据建立了PLSDA分类模型,模型对交叉验证集的总体准确率为98.4%,对校正集和验证集的总体准确率为100%。模型对外部验证集样本的总体分类准确率为97.9%,可视化结果较好。

(3)对验证数据集的3个样本采用图像处理技术进行分析,并将其判别结果与本文方法进行了比较和讨论,结果表明,依托高光谱成像技术建立的八角和莽草辨识的多光谱分析方法,是一种简单、实用和便于实现动态在线或便携式检测应用的有效方法。

猜你喜欢
像素点波长光谱
基于三维Saab变换的高光谱图像压缩方法
一种波长间隔可调谐的四波长光纤激光器
基于3D-CNN的高光谱遥感图像分类算法
图像二值化处理硬件加速引擎的设计
杯中“日出”
高光谱遥感成像技术的发展与展望
基于局部相似性的特征匹配筛选算法
基于像素点筛选的舰船湍流尾迹检测算法
基于针孔阵列型的单次曝光双波长叠层成像*
基于canvas的前端数据加密