彭彦昆 戴宝琼 李 阳 赵鑫龙 邹文龙 王亚丽
(1.中国农业大学工学院, 北京 100083; 2.国家农产品加工技术装备研发分中心, 北京 100083)
玉米是重要的粮食、饲料和生物燃料的来源[1-4]。玉米中主要成分包括淀粉(约72%)、蛋白质(约10%)和脂肪(约4%),而淀粉、蛋白质和脂肪含量是评价玉米营养品质和品尝品质的重要参考指标[5]。其中玉米中的淀粉是人畜摄取能量的主要能源,而且是最具工业化生产淀粉的谷物原料[6]。蛋白质是玉米营养成分中最重要部分。此外玉米中还含有少量的脂肪,与贮藏时风味变化相关[7-9]。了解玉米籽粒内部各成分含量有利于对玉米品质进行实时评估,为消费者、玉米加工厂等在购买或收购玉米时,将玉米用作不同用途提供参考。然而,在粮食收购、样品抽检等场合,还需将样本送至专业实验室采用化学分析方法,而对于普通消费者而言,只能依靠感官经验来判断玉米品质。常规的检测方法存在破坏性、检测效率低等弊端,时间上严重滞后,无法及时提供所需的分析数据,严重制约收粮、抽检等工作的效率。因此,研究玉米品质快速、无损检测方法及便携式装置具有重要意义。
可见/近红外光谱分析技术具有检测样品用量少、检测速度快、非破坏、无污染、可同时获取多品质成分含量等优点,已被广泛应用到工业、农业、食品、医药等领域,并且已成为农产品品质分析的重要手段[10-18]。国内外基于可见/近红外技术研发的谷物分析仪器也有很多,如美国的波通9500plus型多功能谷物近红外分析仪,1 min内可同时测定谷物籽粒样品或粉末状样品的含水率、容重以及蛋白、脂肪、淀粉、灰分含量等多项参数;德国Bruins OmegAnalyzerG型近红外谷物分析仪可检测谷物种类多达十余种,分析参数包括含水率以及蛋白质、油分、淀粉含量等十余种。国内BN1700型近红外谷物分析仪,1 min能同时分析出小麦、面粉、麸皮、次粉、挂面等颗粒、粉状、片状物的含水率、吸水率以及灰分、蛋白、面筋含量等多个指标;DH9800型大豆含油率检测仪适用于玉米、葵花籽、香菜籽、山茶籽、菜籽、花生、大豆、棉籽、芝麻、橄榄等含油作物含油率的测定。但目前已有谷物分析设备均存在以下问题:一是设备价格昂贵,严重制约该设备在市场上的应用与推广;二是设备体积整体偏大,不利于随身携带使用;三是设备操作复杂,有的甚至需要专业工作人员进行操作。
综上分析可知,目前缺少一种价格低廉、尺寸小巧便携、检测速度快、可随时随地应用于各种场合的便携式玉米多品质检测装置。本文基于可见/近红外光谱分析技术,结合化学计量学方法,采用含有与玉米主要品质信息相关波段的传感器,建立玉米蛋白质、脂肪和淀粉含量等主要品质预测模型。并通过单片机进行装置的控制,设计光谱采集单元结构,以使装置整体小巧便携。
本试验所用玉米样本由黑龙江省农业科学院玉米研究所提供,为了确保不同玉米样本中各组分(淀粉、蛋白质、脂肪等)含量具有梯度,共选取了8个品种,每个品种随机选择9个子样,共准备72个玉米样本。每份玉米样本要求无霉变、无缺陷、外形近似、质量约110 g,依次对玉米样本进行编号。试验前将待测玉米样本放置室温(20℃)下贮藏24 h,以消除温度的影响。
本试验利用实验室自行设计的可见/近红外光谱采集平台对所有玉米样本进行光谱数据采集,其漫反射原始光谱曲线如图1所示。试验所采用的光谱采集平台主要包括AVS-DESKTOP-USB2- EXT-12V型光谱仪(Avantes公司,荷兰),分辨率为0.6 nm,选取了500~1 050 nm波段的数据;光纤为R200-7-VIS-NIR型,光纤直径为200 μm。测量之前,将光谱仪以及光源预热30 min,以便保证光谱仪以及光源达到稳定的工作状态。然后设置光谱仪检测参数,包括积分时间、平滑度和平均次数。为防止室内光线对光谱数据采集的影响,本试验在暗箱中进行。采集时先放置标准校正白板采集白参考,再放置标准黑板采集黑参考,并保存黑、白参考数据。之后依次将待测玉米样本放置物料杯中,尽量压平玉米样本,使用光谱采集平台依次采集每个样本的反射光谱数据,每个样本采集3次取其平均值。
图1 玉米籽粒漫反射光谱曲线Fig.1 Reflectance spectrum curves of corn kernel
玉米籽粒中总淀粉含量标准理化值依据文献[19]所规定的酸水解法进行测量;蛋白质含量标准理化值依据文献[20]所规定的凯氏定氮法进行测量;脂肪含量标准理化值依据文献[21]所规定的索氏抽提法进行测量。
玉米样本各指标理化值的统计分析结果如表1所示。
表1 玉米样本各品质指标含量统计结果Tab.1 Statistical results of each quality index content of corn samples %
1.4.1全光谱数据模型建立与分析
为了消除原始光谱数据掺杂的无关信息和噪声对数据的影响,需要对原始数据进行预处理分析[22]。采用6种预处理方式,分别为多元散射校正(Multiplicative correction,MSC)、标准正态(Standard normal variate,SNV)、归一化(Normalize,Nor)、S-G平滑结合多元散射校正(SG-MSC)、S-G平滑结合标准正态(SG-SNV)、S-G平滑结合归一化(SG-Nor)[23]。其中MSC是利用所测全部样本的平均光谱来校正每个样本光谱的散射,达到消除样本间因散射影响所导致的基线漂移和平移现象的目的;SNV通过对每条光谱进行标准正态化,进而消除光谱中激光光源功率变化、光强衰减等引起的噪声;S-G平滑可以有效地消除光谱图中的高频成分而保留低频成分,有效提高信噪比[10,22-23]。通过对比不同光谱预处理方法对所建立的偏最小二乘预测模型结果的影响,得出适合该研究的最优预处理方式。
表2为不同预处理方法下玉米蛋白质、脂肪和淀粉全部波长变量的PLS(偏最小二乘)建模结果,从表2可以看出,MSC、SNV、Nor、SG-MSC、SG-SNV以及SG-Nor光谱预处理方法相比于原始光谱建模,均能有效提升建模结果,这可能是因为预处理消除或降低了原始光谱曲线掺杂的无关信息和噪声对数据的影响。除淀粉模型结果外,蛋白质和脂肪的模型结果经过S-G平滑和其余3种预处理方法组合处理后均优于其余3种预处理方法,原因可能是进行S-G平滑处理时,平滑点数选择合适,去除了原始光谱中大部分的噪声,然后再经过其它预处理方法处理,进一步降低了其它影响因素对模型结果的影响。其中蛋白质、脂肪和淀粉质量分数预测的最优预处理方法分别是S-G平滑结合归一化(SG-Nor)、S-G平滑结合多元散射校正(SG-MSC)、归一化(Nor),预测相关系数Rp分别为0.930 9、0.949 7、0.952 0;预测均方根误差分别为0.486 6%、0.154 9%、0.471 4%。
表2 玉米蛋白质、脂肪、淀粉含量全波长PLS建模结果Tab.2 Modeling results of corn protein, fat and starch contents with full wavelength PLS
1.4.2基于竞争性自适应重加权算法模型变量选择
由上述分析可知,基于不同预处理方法分别建立玉米籽粒蛋白质、脂肪和淀粉质量分数的全波长变量偏最小二乘预测模型,其结果均较好,表明采用可见/近红外光谱法对玉米籽粒蛋白质、脂肪和淀粉含量进行预测具有可行性。但可见/近红外光谱数据的多维性和多重共线性会延长模型的运行时间,限制了模型的应用,通过筛选与待测品质参数相关的特征变量,有助于提高检测速度和精度、简化模型。故本文采用竞争自适应重加权算法(CARS)分析了玉米主要品质的特征变量分布范围,为后续便携式检测装置的开发提供理论依据。
CARS算法是通过自适应重加权采样(ARS)技术选择出PLS模型中回归系数绝对值大的波长点,去掉权重小的波长点,反复迭代采样并利用交互验证比较每次采样的交互验证均方根误差,直至找到最小交互验证均方根误差所包含的最优变量子集,可有效寻出最优变量组合[24-26]。
图2显示了利用CARS算法对玉米籽粒中蛋白质、脂肪和淀粉含量进行50次蒙特卡罗采样的变量选择过程。由图2可见,CARS方法在选择光谱变量的过程中,随着采样次数的增加,被选择的变量数逐渐下降,且下降的速度先快后慢,同时交互验证均方根误差曲线呈先缓慢下降至最低点后又逐渐上升的趋势。同时发现有些变量回归系数的绝对值不断变大,而另一些变量回归系数的绝对值却不断变小,这表明在CARS方法进行变量筛选过程中,先剔除了与蛋白质、脂肪、淀粉质量分数无关的波长变量,使交互验证均方根误差下降,而后又剔除了与蛋白质、脂肪、淀粉含量相关的波长变量,信息丢失导致交互验证均方根误差增加[27-28]。图中“*”对应的位置为交互验证均方根误差最小处,此时蛋白质所对应的采样次数为25次,特征变量数为47;脂肪所对应的采样次数为28次,特征变量数为37;淀粉所对应的采样次数为30次,特征变量数为28。各组分所筛选出的特征变量在全波段光谱图上的分布情况如图3所示。
图3 CARS算法特征变量分布Fig.3 Feature variable distributions of CARS algorithm
经CARS算法变量筛选后,利用PLS方法分别建立玉米蛋白质、脂肪和淀粉含量预测模型,基于全波长和特征波长所建立的PLS预测模型对比结果如表3所示。从表中可以看出,使用CARS挑选特征波长后,蛋白质、脂肪和淀粉质量分数的模型效果均有所提升,均方根误差相应地有所降低,蛋白质、脂肪和淀粉质量分数预测集相关系数Rp分别为0.960 3、0.977 0、0.960 5;预测集均方根误差分别为0.406 8%、0.098 9%、0.467 5%。由此说明,采用CARS方法能在不丢失关键信息的情况下有效筛选出与蛋白质、脂肪以及淀粉含量相关波长变量,大幅度降低模型的数据维度。也表明了变量筛选的重要性,不仅降低计算量、提高模型运算效率,也为开发基于特征波长变量的玉米主要品质便携式检测装置提供科学依据。
表3 基于全波长和特征波长的PLS建模结果比较Tab.3 Comparison of PLS modeling results based on full wavelength and characteristic wavelength
为了满足玉米品质无损检测领域对便携式、低成本设备的开发需求,在上述对玉米蛋白质、脂肪以及淀粉等组分特征变量分析的基础上,选用了兼顾玉米蛋白质、脂肪和淀粉等组分含量特征变量的Senorics型近红外光谱传感器,设计了玉米主要品质便携式检测装置。该传感器具有18个通道,光谱响应范围为400~1 000 nm。每个通道均集成了一个滤波器和光电二极管,滤波器采用干涉拓扑设计,保证了所获取的信息在时间和温度方面有较高的稳定性,每个通道的半峰全宽(FWHM)为20 nm。
由上述CARS算法筛选特征变量的结果可知,在500~600 nm、600~700 nm、700~800 nm、800~900 nm、900~1 000 nm等波段均涉及到蛋白质、脂肪和淀粉含量的特征变量,且该传感器的各通道也均涵盖了上述各波段。结合传感器各通道波长和所筛选的特征变量进一步分析,以传感器每个通道为中心,左右两侧各半峰全宽的50%(即10 nm)处所覆盖的蛋白质质量分数特征变量(波长)有:501、502、515、516、535、538、539、540、545、570、672、704、897、907、908、909、940、941、942、943、944 nm,占CARS算法筛选出总变量数的44.68%;所覆盖的脂肪质量分数特征变量有:646、648、689、690、691、705、731、736、907、908、909、910 nm,占CARS算法筛选出总变量数的32.43%;所覆盖的淀粉质量分数特征变量有:519、554、578、579、678、680、683、723、759、764、908、909、910、941、943、948 nm,占CARS算法筛选出总变量数的57.14%。综上所述,该传感器各通道覆盖了玉米蛋白质、脂肪以及淀粉大部分的特征波长变量,故使用该传感器建立蛋白质、脂肪以及淀粉质量分数预测模型是可行的。
基于上述所选光谱传感器设计了便携式检测装置,其中包括光谱采集单元、控制单元、显示单元、电源单元以及散热单元。检测装置如图4所示,整体外观呈圆台形,最大高度18 cm,外形最大直径11 cm,总质量900 g,具有小巧、易携带、操作简单等特点,实现了“一键式”快速检测与实时显示。
图4 便携式检测装置结构图Fig.4 Structure drawings of portable testing device1.物料杯 2.光谱采集单元 3.指示灯 4.散热风扇 5.电源总开关 6.USB接口 7.电池充电口 8.散热孔 9.外壳 10.显示屏 11.检测按钮
2.2.1光谱采集单元设计
光谱信息采集单元主要包括物料杯、光源探头、卤素灯、光谱传感器等部分,6个飞利浦W1.2W-12516CP型卤素灯呈环形均匀分布在光谱传感器四周并固定在光源探头上,为其提供均匀的环形光照。光谱传感器固定于光源探头中间,便于接收反射信息。光谱信息采集单元结构如图5所示。
图5 光谱信息采集单元结构示意图Fig.5 Schematic of spectral information acquisition unit1.物料杯 2.玉米籽粒 3.光源探头 4.光谱传感器 5.卤素灯
2.2.2控制与显示单元设计
控制单元在该装置中需要控制光谱传感器完成数据采集,并对数据进行处理与计算,最后控制显示单元实时显示出各指标预测结果。本装置采用NodeMCU开发板作为核心控制单元,该开发板具有强大计算与存储功能,轻量化、运行速度快、低功耗、支持多接口(UART、IIC、GPIO、ADC、HSPI等),与大多数传感器具有很好兼容性。显示单元选用了2.0英寸TFT型液晶显示屏。其驱动芯片是ILI9225,分辨率是176像素×220像素,显示区域为31.68 mm×39.60 mm,四线SPI接口,可以很容易与NodeMCU开发板通过SPI通信协议进行数据传输。
2.2.3电源单元设计
该装置中功耗较大的是光源以及散热风扇。每个卤素灯额定电压为12 V,额定功率为1.2 W。散热风扇选用4 cm×4 cm小型风扇,额定电压为12 V,额定功率约为2.4 W。而NodeMCU开发板、显示屏、传感器等功耗相对较小,故本装置中选用12 V、8 400 mA·h大容量可充电锂电池。装置中不同单元之间工作电压要求不同(12 V/5 V),故需要通过稳压模块来保证输出电压的稳定。如图6所示,该装置中电路主要分两路,一路由降压模块转换成5 V为控制单元供电,另一路由稳压模块为光源和散热风扇提供稳定的12 V电压。经测试,使用该电池可以为便携式装置持续供电6 h以上,可以满足实际使用需求。
图6 检测装置电源单元供电示意图Fig.6 Schematic of power supply unit of detection device
基于NodeMCU开发板和Arduino IDE开发工具,采用Arduino语言开发了玉米主要品质便携式检测装置的控制程序,该控制程序包括光谱采集、数据处理与模型计算、数据显示以及电源电量监测,其流程如图7所示。装置开启后,程序首先会设置光谱传感器参数、加载各参数模型和初始化显示界面,然后等待检测按钮被触发。当检测按钮被触发,首先由控制系统控制光谱采集单元获取玉米籽粒的漫反射光谱数据,然后对获取的数据进行相应的预处理,再调用移植在该装置中的玉米各品质参数预测模型,计算出各参数的含量预测值,并实时显示在显示界面上。
图7 检测装置控制程序流程图Fig.7 Flow chart of test device control program
利用该装置获取80个玉米样本的漫反射光谱数据,采用偏最小二乘方法分别建立玉米蛋白质、脂肪和淀粉质量分数预测模型,并将各参数模型移植到装置控制程序中。为了进一步验证所设计的便携式检测装置检测精度和模型可靠性,另选取30个未参与建模玉米籽粒样本,对所设计的玉米主要品质便携式检测装置进行试验验证。将玉米籽粒样本放入物料盒中,通过装置中的光谱采集单元进行信息采集,并由装置预测出玉米籽粒蛋白质、脂肪和淀粉等组分的含量。然后参照国家标准方法依次测定出各组分的实际理化值。各组分试验预测结果散点图如图8所示。为测试装置的稳定性,对同一样本重复预测30次,蛋白质、脂肪和淀粉质量分数预测结果的变异系数分别为0.235%、0.241%和0.028%。并通过试验测试,在室温下装置连续工作4 h,其内部温度基本稳定在30℃上下,且持续工作状态下仪器无温漂现象。以上验证结果表明,玉米主要品质便携式检测装置预测精度和稳定性均满足实时检测要求。
图8 预测结果散点图Fig.8 Scatter diagrams of predicted results
(1)基于可见/近红外光谱方法分别建立了玉米籽粒蛋白质、脂肪和淀粉含量的PLS预测模型,对比了不同预处理方法对建模结果的影响,结果表明,蛋白质、脂肪和淀粉质量分数预测的最优模型预处理方式分别为SG-Nor、SG-MSC、Nor,最优模型的验证集相关系数分别为0.930 9、0.949 7、0.952 0,均方根误差分别为0.486 6%、0.154 9%、0.471 4%。
(2)采用CARS方法筛选玉米籽粒光谱的特征变量,并建立了玉米蛋白质、脂肪和淀粉含量的PLS定量分析模型,结果表明,CARS方法不仅可以有效筛选出各组分的相关变量,大大降低数据维度,减少模型计算量,而且还提升了建模结果。蛋白质质量分数预测模型的均方根误差由0.486 6%降至0.406 8%,Rp由0.930 9提升至0.960 3;脂肪质量分数预测模型的均方根误差由0.154 9%降至0.098 9%,Rp由0.949 7提升至0.977 0;淀粉质量分数预测模型的均方根误差由0.471 4%降至0.467 5%,Rp由0.952 0提升至0.960 5。
(3)根据CARS方法所筛选的各组分特征变量,选择了合适的近红外光谱传感器。基于该传感器设计了玉米主要品质便携式检测装置,其中硬件部分包括光谱采集单元、控制单元、显示单元、电源单元以及散热单元。并基于NodeMCU开发板和Arduino IDE开发工具,采用Arduino语言对装置控制程序进行开发,实现“一键式”快速检测。
(4)试验验证了该装置的检测精度和稳定性,结果表明,预测玉米籽粒蛋白质、脂肪和淀粉质量分数的相关系数分别为0.843 1、0.824 3、0.815 4,预测均方根误差分别为0.357 6%、0.231 8%、0.233 3%,相对分析误差分别为1.857 7、1.776 1、1.573 5。对同一样本多次重复预测,各组分预测值的变异系数分别为0.235%、0.241%和0.028%。这表明,自行设计的玉米主要品质便携式检测装置可以实现对玉米籽粒的蛋白质、脂肪和淀粉等多品质含量进行实时、无损、快速检测,具有较高的应用前景。