吴永清 李 明 张 波 张影全 郭波莉
(中国农业科学院农产品加工研究所;农业农村部农产品加工重点实验室,北京 100193)
谷物有大宗谷物与小宗谷物之分,大宗谷物包括小麦、玉米、稻谷,小宗谷物包括高粱、粟、黍、荞麦、筱麦、薯类、豆类等[1]。谷物及谷物加工制品提供了人类所需能量物质的50%~80%,蛋白质的40%~70%,B族维生素60%以上,以及膳食纤维、碳水化合物、脂肪、铁、锌、维生素E、维生素C以及多种抗氧化活性成分等[1,2]。谷物品质的好坏直接影响到民众的健康及其加工特性,因此谷物品质的检测方法研究意义重大。
目前,谷物品质检测的方法包括:蛋白质检测的DNA分子标记法、凯氏定氮法、近红外光谱分析法等,水分检测的烘干法、近红外光谱分析法等,淀粉检测的分光光度法、热重分析法等,品种鉴别的人工检测法、蛋白电泳鉴定法等,活力检测的电导率法、电子鼻法、发芽试验法、叶绿素荧光检测技术、激光检测技术等,不完善籽粒检测的声学原理法、人工检测法等。其中,传统的谷物品质检测的方法包括:人工检测法、烘干法、凯氏定氮法、分光光度法、DNA分子标记法、蛋白电泳鉴定法等,而传统的谷物品质检测方法存在工作量大、主观性强、效率低、操作繁琐、时效性差、成本高、危害人体健康等缺点。现代仪器法包括:电子鼻、机器视觉技术、叶绿素荧光检测技术、激光检测技术、近红外光谱分析法等,但上述方法存在测定结果易受其他因素干扰、稳定性差的缺点。因此,研发一种简便、快速、有效、稳定的谷物品质检测技术一直是本学科的研究重点和热点。
高光谱成像(Hyperspectral imaging,HSI)技术融合了传统的光谱技术(反映化学组成等)和图像技术(反映物理特性),具有高分辨率、无损、快速等特点[3]。随着化学计量学的发展,HIS技术作为一种新兴的快速、无损检测方式,已经广泛应用于谷物无损检测中。
针对近五年来HSI技术在谷物无损快速检测方面的研究,分析了HIS技术在小麦、玉米、稻谷3种大宗谷物的化学成分检测、品种鉴别、种子活力检测、不完善籽粒检测中的应用进展,提出了现有研究中存在的问题,并对HSI技术在谷物品质检测应用中的研究进行了展望,以期为今后的研究提供参考。
HIS技术是在一定的波长范围内,将二维的平面图像按照光谱分辨率连续地组成一个三维的数据立方体结构,其中的二维数据是图像像素的横纵坐标x和y轴,第三维是波长信息λ。HSI系统主要由光源、成像高光谱仪、相机、图像采集系统和计算机等组成,其分辨率在Δ λ/λ=0.01数量级,波长范围可以在紫外(200~400 nm)到可见光-近红外(400~1 000 nm),再到近红外(900~1 700 nm,1 000~2 500 nm)以及波长大于2 500 nm的区域。按照HIS系统扫描方式不同可将其分为点扫描式、线扫描式及区域扫描式3种,其中线扫描式为最常用的一种方式[4]。
高光谱信息量巨大,采用化学计量学算法可挖掘详细且重要的信息。目前,相关数据处理软件有ENVI、Matlab和Unscrambler等。
1.2.1 图像数据处理与分析
图像处理和分析包括了图像预处理、图像分割和特征提取。图像预处理可以通过直方图均值化或主成分分析法(PCA)移除坏点、背景信息和边缘效应,也可通过小波变换(WT)减少图片噪声和模糊边缘,为后续的处理提供高质量的图像。图像分割的目的是将有差异的区域分割出来,使它们互不相交,从而为感兴趣区域的提取、定性、定量分析提供基础,常用的方法有大津阈值分割算法(OSTU)[5]等。图像特征包括纹理、颜色和形态特征,纹理特征的提取方法有灰度共生矩阵(GLCM)[6]、WT[7]等,颜色特征的提取方法有颜色直方图[8]等,形态特征的提取方法有傅里叶变换、几何参数法等[9]。
1.2.2 光谱数据预处理与分析
高光谱数据中除了包含样品的自身信息外,还包含其他无用的信息和噪声,为了消除这些因素的影响,以优化增强光谱信息、提高模型的稳健性,在建模之前,需对原始光谱数据进行预处理[10]。光谱预处理的方法有很多种,包括平滑法[移动平均平滑法(MAS)和卷积平滑法(SG)]、导数法[光谱的一阶(1stDer)和二阶导数(2ndDer)]、散射效应校正[多元散射校正(MSC)和标准正态变量变换(SNV)]、数据增强算法[均值中心化(MC)、标准化(AL)和归一化(NL)]、基线校正(BL)、WT、正交信号校正(OSC)、去趋势算法(Dt)等[11]。
1.2.3 特征波长提取
高光谱数据的特点是波段多、数据量大、冗余性强,对高维数据分类时,由于可获取的样本数量是有限的,所以分类精度会随着波段数量的增加出现先上升后下降的现象,也就是Hughes现象[12],导致所建模型性能差、效率低。故提取特征波长、消除无关信息,是提高模型稳健性和准确性的关键步骤。常用的特征波长提取的方法有连续投影算法(SPA)、PCA、变量投影重要性(VIP)、无信息变量消除法(UVE)、竞争性自适应重加权算法(CARS)、间隔偏最小二乘算法(IPLS)、组合偏最小二乘波段选择算法(SiPLS)、随机蛙跳(RF)算法、遗传算法(GA)等[11, 13,14]。
1.2.4 模型建立与验证
由于高光谱数据冗余,需要应用统计学方法进行定性定量分析。其中定性分析中主要有监督分类与非监督分类、参数分类与非参数分类、确定性分类与非确定性分类等,常用的方法包括线性判别(LDA)、最小二乘判别(PLS-DA)、随机森林(RF)、支持向量机(SVM)、人工神经网络(ANN)、BP神经网络(BPNN)、卷积神经网络(CNN)、Fisher判别分析(FDA)、极限学习机(ELM);定量分析模型中多采用多元变量回归,可分为线性回归和非线性回归,线性回归包括逐步线性回归(SLR)多元线性回归(MLR)、主成分回归(PCR)、偏最小二乘回归(PLS)等,非线性回归包括人工神经网络(ANN)、支持向量机(SVM)等[11, 15]。
高光谱技术发展迅速,在军事、地质、农业领域都得到了广泛研究。近年来,HSI技术用于谷物品质检测主要集中在种子化学成分检测、品种鉴别、种子活力检测、不完善籽粒检测等方面。
谷物化学成分含量是评价谷物品质的重要指标。谷物中含水分、淀粉、蛋白质、纤维素、维生素等营养成分。近几年,HSI技术已经被作为一种快速无损技术用于谷物化学成分定性和定量的分析,并取得一定成果。
目前常用的高光谱波长范围为可见-近红外(VNIR)(400~1 000 nm)、近红外(NIR)(900~1 700 nm)和短波红外(SWIR)(1 000~2 500 nm),其中近红外谱段(780~2 500 nm)反映的是分子倍频和组合频吸收的特征,倍频是伴随中红外区的分子基频振动产生的,基频的强度会随倍频的增大而降低;组合频是多个基频之和,其强度随频率之和的增大而降低[17]。近红外区域最常观测到的谱带是O—H、N—H、C—H和S—H化学键基频振动的组合频以及一级、二级和三级倍频吸收[3, 18],主要基团组合频与各级倍频吸收带的近似位置见表1。
表1 主要基团合频与各级倍频吸收带的近似位置[17, 18]
小麦化学成分测定的研究表明,使用高光谱近红外波段预测小麦蛋白质、水分、湿面筋含量的性能优于传统的近红外光谱[13, 21]。玉米水分含量测定研究表明,用NIR光谱建立的模型比用VNIR光谱建立的模型的进行测定玉米种子含水量更具潜力[16]。种子不同部位的化学成分的种类和含量不同,研究发现,玉米胚结构区域高光谱的特征波长建立的模型优于全表面区域[22]。Zhang等[16]将得到的定量模型传递到每个像素从而实现大米淀粉含量的可视化图像,从可视化图像可以了解大米淀粉的分布情况,为实现在线检测提供了基础。HSI技术在小麦蛋白质、水分、湿面筋含量指标[19-21, 23],水稻和玉米的水分含量定量检测[13, 16, 22, 24-27]方面取得了一定的成果,但在小麦的稳定时间、纤维素、千粒重、沉淀值、淀粉、湿面筋等,玉米的淀粉、脂肪、蛋白质等,水稻的淀粉、蛋白质等化学指标的较少甚至没有。
小麦、水稻、玉米等谷物品种众多,不同品种的谷物其生长条件、抗病虫害情况、产量及加工品质等存在差异,对种植、收购、流通、储运和加工均具有重要影响。然而大部分品种在缺乏经验前提下凭肉眼无法鉴别,且部分品种外观极其相似。近年来,基于高光谱成像技术在小麦、水稻、玉米等谷物品种鉴别方面已有探索性研究(表3)。
表2 HSI技术在谷物化学成分检测中的应用
表3 HSI技术在谷物品种鉴定中的应用
小麦、水稻品种鉴别研究中均发现NIR波长范围所建模型的品种鉴别效果优于VNIR波长范围所建模型[31,32]。谷物品种鉴别的研究中,采用光谱和图像信息结合进行建模,所建模型性能优于单一使用光谱或图像信息[33]。模型的准确性和稳定性是评价模型性能的重要指标,Guo等[34]为了保持模型的准确性和稳定性,提出了一种基于高光谱成像结合预标记方法的不同年份玉米种子品种的模型更新算法。Qiu等[31]使用不同数量的训练样本进行建模,模型性能随着训练样本数量的增加而提高。目前国内外研究均表明基于HIS技术进行小麦、水稻、玉米品种鉴别的可行性,但同时也发现HIS技术存在有效性和稳定性差等问题。此外,样本在储运和流通环节产生的不一致性也增加了高光谱建模的难度和不确定性。
种子活力是评估种子品质的一个重要指标,高活力的种子耐储藏、发芽率高、具有较强的抗逆性。成熟时的种子活力最高,但会随着贮藏时间的增加而降低。故在使用种子进行播种或食品加工前进行及时、准确的种子活力检测具有重要的意义。目前,HIS技术在小麦、水稻、玉米种子活力检测上都获得了有效性验证,但同时也表明种子活力受品种、种植区域、贮藏年份等的影响,需要对不同品种、种植区域、贮藏年份等的样本建立检测模型。
不完善籽粒主要在生产、存储、包装等过程中产生,不完善籽粒的存在会降低谷物质量甚至影响粮食安全。目前我国谷物不完善籽粒检测多以人工分选为主,存在主观性较强,费时费力等问题。因此,如何快速准确鉴别谷物不完善粒是现阶段提高生产率和保证粮食安全的重要问题,HSI技术作为一种无损和快速的光学成像分析技术可以解决这一重要问题。目前,HSI技术在谷物不完善籽粒检测主要应用于小麦破损粒、黑胚粒、发芽、发霉、干瘪、虫蚀、病斑粒等检测并取得一定进展,但由于不同品种小麦的特征波长可能有所不同,需大量的研究数据来建立可靠的识别模型,故仍存在样本量少而导致模型可信度低的问题。
表4 HSI技术在谷物活力检测中的应用
表5 HSI技术在谷物不完善籽粒检测中的应用
HSI技术在谷物品质无损检测研究与应用中已经取得一定的成果,但其应用于实际仍存在许多问题。HSI技术在小麦蛋白质、水分、湿面筋含量指标,水稻和玉米的水分含量检测方面取得了一定的成果,但在小麦的稳定时间、纤维素、千粒重、沉淀值、淀粉等,玉米的淀粉、脂肪、蛋白质等,水稻的淀粉、蛋白质等化学指标较少甚至没有。HSI技术在品种鉴别的研究上存在有效性和稳定性差等问题。此外,样本在种植区域、储藏年份、生产条件、储运和流通环节产生的不一致性也增加了高光谱建模的难度和不确定性。HSI技术在种子活力检测上都获得了有效性验证,但同时也发现模型的准确性和可信度受样本的品种、种植区域、储藏年份等的影响。HSI技术在谷物不完善籽粒检测的研究中,由于不同品种的小麦的特征波长可能有所不同,需大量的研究数据来建立可靠的识别模型,故仍存在样本量少而导致模型可信度低的问题。缺乏集光谱采集、数据处理、智能判别为一体的相关设备。目前实验室用和室外用HSI成像设备,体积过于庞大、不易携带。高光谱设备和数据处理软件操作难度大,大量数据通过不同数据软件分析速度显著不同,所构建的模型不具通用性,致使该技术的应用受限。
将高光谱成像技术成功应用于谷物无损快速检测仍需做大量工作:建立多化学指标的高光谱定量模型;增加样本来源和数量,尝试不同数据处理方法,有助于提高模型的准确性、稳定性和重现性;借助互联网、大数据等研发快速、无损、轻便、智能化的高光谱检测或监测设备等。