高光谱成像技术在水稻种子分类检测中的应用研究

2022-09-21 08:52
乡村科技 2022年14期

黄 海

(广西壮族自治区产品质量检验研究院,广西 南宁 530222)

1 材料与方法

1.1 整体研究方案

研究方案整体分为3部分:试验部分、高光谱数据处理部分及分类算法研究。其中,试验部分主要包括水稻种子材料的收集、预试验确定最佳试验条件及参数、试验水稻种子的筛选和最后高光谱数据的采集;高光谱数据处理部分是通过试验得到水稻种子图像信息,利用数字图像处理技术来间接获取光谱信息,便于后续种子分类;分类算法部分通过线性判别分析算法(Linear Discriminant Analysis,LDA)及K近邻算法(K-Nearest Neighbor,KNN)相互对照分析分类结果。此试验通过这3部分的有机结合,建立水稻种子分类方法。

1.2 试验材料

试验所用3类水稻种子分别为赣香占、黄华占和农香32,每类均选取180粒进行试验。所选试验水稻种子均品质良好,外观无明显瑕疵。将540粒试验样本按2∶1随机分成建模集和测试集,建模集每类120粒,测试集每类60粒。

1.3 高光谱图像获取

试验光谱波长范围为400~720 nm,光谱分辨率为2 nm,图片分辨率为1 392 px×1 040 px,曝光时间为3.01 ms,物镜高度为45 cm。试验过程中,为降低试验设备对试验的影响(如镜头存在暗电流和周围环境引起的噪声),试验前需要对采集高光谱图像进行黑白校正。选择白色标定板(反射率接近100%)的高光谱图像作为校正中的白色标定图,同时采集黑板(反射率接近0%)高光谱图像作为黑色标定图,矫正公式如下:

式(1)中:为经黑白校正后的高光谱图像;为原始的水稻种子高光谱图像;为黑色标定图;为白色标定图。

1.4 数据处理

为获取不同波长对应的不同品种水稻种子光谱,试验选用的波长范围为400~720 nm,去除噪声比较明显的波长,仅保留450~720 nm波长范围的数据进行分析处理,光谱分辨率为2 nm,每组试验生成136幅光谱图像。如果通过Auto Properties软件人工手动选取ROI再保存光谱数据,试验工作量过大,同时人工选取无法避免主观性带来的误差。因此,在数据处理过程利用高光谱生成的图像信息,将图片中摆放整齐的水稻种子通过Snake算法提取各粒水稻种子的完整轮廓,再进行阈值分割,将背景与水稻种子分离生成二值图,统计二值图各粒种子整个轮廓内的像素值并取平均值,即得到各波段对应的水稻种子平均光谱。将处理后的数据按标签对应导入Excel保存,用于后续反射率计算及建模分析分类。

1.5 分类方法

研究中采用的分类方法是通过LDA算法对光谱数据进行降维处理,再结合KNN算法实现450~720 nm波段内基于光谱数据的水稻种子品种分类。

1.6 试验过程

1.6.1 使用的设备及软件。试验用到的硬件有高光成像装置、卤灯、黑色底板,软件平台是Auto Properties。

1.6.2 设备安装。一是安装高光谱成像设备。二是安装滤波器。三是调焦。调焦主要包括以下6个步骤:①确认高光谱成像装置和电脑已经连接;②打开卤灯电源并将试验对象放到镜头下;③设置曝光时间和FPS及Preview时的波长后,点击Auto Properties上的Preview按钮,注意曝光时间不能设置得太长,曝光时间过长会导致过饱和,不但得不到清晰的图像,还会损坏高光谱成像装置;④根据成像来移动试验对象,直至获得完整的试验对象的成像;⑤旋转支架上的调节杆,将高光谱成像装置上升到一定的高度,再缓慢旋转调节杆降低其高度,直到成像清晰为止;⑥记录下高光谱成像装置的高度。

1.6.3 预试验拍摄。拍摄一组黑底的对照试验组,计算试验对象的反射率。①将黑色底衬(不反光的一面朝上)放在镜头下,要确保覆盖整个镜头。②调整Auto Properties的参数,调整曝光时间及FPS,然后点击Sweep按钮,调整波长的范围、波长增加的步长及时延,并将这些参数记录下来。③点击Cycle,开始拍摄。④Sweep窗口显示stop时,即表示拍摄完毕,拍摄的成像保存在Auto Properties同目录下的shot X文件夹。

1.6.4 试验样本拍摄。①将目标对象放在高光谱成像装置下,调整目标对象的位置,使其成像在中间。②设置Preview时的波长(此处的波长主要是为了让成像清晰)。③根据成像来移动试验对象直至成像中有完整的试验对象的成像。④将对照组试验的参数填写相应的参数。⑤点击Cycle,开始拍摄。⑥Sweep窗口显示stop时,即表示拍摄完毕,拍摄的成像保存在Auto Properties同目录下的shot X文件夹。⑦结束试验后,要将试验装置归位。

1.6.5 试验图像处理。①重新打开Auto Properties。点击文件→点击打开,随机选取一张比较清晰的图像。②选取图形工具。该软件提供2种图形工具:点和矩形。③选取感兴趣区域。选取区域的时候尽量避免太亮和太暗的区域。点击图像处理→Output保存光谱数据。在Auto Properties同目录下生成一个record.txt。

2 结果与分析

2.1 水稻种子的光谱数据获取

通过试验可以拍摄得到水稻种子的高光谱图,但要想提取光谱数据,还要进行进一步处理。传统的方式是通过Auto Properties软件人工手动提取矩形ROI来获取后续分类的光谱数据,但这种方法有一定局限性。首先是只能利用种子的部分区域信息,可能对后续分类有影响;其次是人工选取工作量太大,耗费时间、精力过多,而且选取过程有一定主观性。为了避免上述问题,该研究中充分利用试验中得到的图像数据来提取平均光谱,采用了Snake算法获取水稻种子的轮廓,目的是减少算法迭代次数,提高效率,这样提取到的水稻种子轮廓完整度和精确性较好。

2.2 水稻种子的平均光谱曲线

试验中采集了3类水稻种子在400~720 nm波段内的可见光光谱,但去除噪声明显部分,仅处理了450~720 nm的数据,光谱分辨率为2 nm,所以每类种子有136个特征信息数据。但考虑到周围试验环境和试验设备自身对试验的影响,需要对采集到的光谱数据进行降噪处理。依据3类水稻种子在450~720 nm的平均光谱,了解到赣香占、黄华占及农香32这3类水稻种子的光谱曲线变化和分布情况基本一致,波谷、波峰对应的波长位置也相同,但对应的反射率各有不同,如图1所示。其中,农香32和赣香占反射率值相近且均高于黄华占,农香32和赣香占反射率相近,可能是分类时相互影响导致。上述曲线变化趋势是由不同品种水稻种子内部分子构成和化学成分的差异造成的,通过将采集数据以图形直观表现,便于观察和后续分类。

图1 3类水稻种子的平均光谱曲线

2.3 KNN算法K值确定

实际运用KNN算法时,计算样本间的欧式距离后,要确定最接近样本的点,即值,进而使分类效果最好。如果人为选择值,再通过一次次的测试比较来逼近最佳值,则效率低下。同时,如果处理对象包含大量的数据,每次测试耗费的时间会过长,最后可能逼近的值也不是最佳邻近点值,不能建立最优分类模型。为解决这个问题,此次研究在运用KNN算法前通过高效的预测试方法确定最佳值,该方法的实现思路是KNN使用时通过循环遍历从1到100内的取值,并统计每次取值后的整体准确率,以曲线图的形式表现,并确定值。

2.4 分类模型结果

该研究建立了基于450~720 nm全段波长光谱数据的KNN水稻种子分类模型和经LDA算法数据降维再提取特征分类的LDA-KNN水稻种子分类模型,模型性能以分类准确率和分类时间为评判标准。3类水稻种子原始分类数据及LDA-KNN模型降维数据分类结果分别见表1、表2。

表1 基于450~720 nm全段波长光谱数据的KNN水稻种子分类数据结果

表2 3类水稻种子LDA-KNN模型降维数据分类结果

通过试验模型评判结果可知,两种分类模型最佳值均取5,经过数据降维处理的LDA-KNN模型全面优于利用了全波长数据的KNN模型。在识别准确率方面,KNN算法结合LDA后将3类水稻种子的平均分类准确率由73.7%提升至96.3%,增长了22.6个百分点,同时黄花占和农香32准确率分别由61.7%、62.2%均提升至100%,但美中不足的是,降维后赣香占准确率降低了8.3个百分点。从分类时间来看,两类模型在同样输入的数据集中分类速度都非常快速,能满足实时分类的需要,这也是KNN算法本身的特点,而经LDA数据降维后能去除大量冗杂数据,所以LDA-KNN模型分类时间更短。综合前面的分析,总体来看LDA-KNN模型性能更好,为水稻种子的分类提供了可行依据。

该试验结果表明,利用高光谱成像技术在450~720 nm可见光下,通过LDA-KNN分类模型能够实现不同品种水稻种子快速、高效、可靠的分类。

3 结语

笔者基于高光谱成像技术,以水稻分类研究为例,开发了一套基于高光谱成像技术的水稻种子快速、无损、高效分类方法。该方法具有如下特点。①无损检测。通过高光谱成像技术结合机器视觉,能实现无接触检测,最大限度地保证了水稻种子完整性,确保作物产量和农民、销售商的利益。②可靠高效。采用该技术可避免主观性带来的错误判别,保证分类的高效性。③推广性强。该研究提出了新的水稻种子分类方法,可推广到其他种子识别分类上,专业性要求不高,普适性强,为农业育种中的种子快速筛选提供了思路和帮助。

当然,该研究开发的水稻种子分类方法不可避免还存在着一些不足,还可以进一步改进和完善。①目前,基于高光谱成像技术的水稻种子分类基本是在试验室内通过间接测定稻谷籽粒的光谱实现,没有直接通过测定农田里的水稻植株光谱来鉴别水稻品种,需进一步完善验证。②在用高光谱成像技术进行水稻种子分类时,不同型号的仪器设备在试验过程中提取的光谱数据可能各有差异,从而导致后续分类所需的特征信息也有所不同。这种情况下,在特定设备条件下建立的分类模型的普适性会降低,这是需要克服的潜在不足。③在不同的水稻种子分类方法中,数据处理和分类算法各有不同,最终分类识别精度也各不相同,可以对技术路线进行统一化,从而降低建模难度,提高模型识别精度和稳定性。