成 雪,李占明,温伦冲,马银幸,沈 鑫,俞 玥*
(1.江苏科技大学粮食学院,江苏镇江 212100;2.昆山市粮油购销有限责任公司,江苏昆山 215300)
稻米的品质、口感及营养价值,受稻米产地气候和土壤条件、种植方式、品种、加工精度及储藏条件等多因素影响[1]。近年来,稻米新陈掺杂、品种真假混卖等问题屡见不鲜,成为社会关注的焦点。稻米品质控制及溯源分析是关系国计民生的重要问题之一[2]。
传统的稻米品质检测方法为采用理化指标分析和蒸煮感官评价对稻米品质进行定性和定量分析。由于理化指标分析方法处理方法繁琐,检测时效性差,样品前处理破坏性大;而蒸煮感官评价技术效果受蒸煮方法、品评者饮食习惯及环境等多因素影响。市场日益增长的稻米消费量及对优质稻米品质控制的需求亟需快速、无损的新型稻米检测方法。
近红外光谱(near-infrared spectroscopy,NIRS)技术是采用化学计量法对样品近红外光谱数据和理化数据建立关联模型(或称校正模型),并在构建模型的基础上对未知样品值进行预测的一项快速无损检测技术。因其操作简单、快速、无损、仪器小型化等优点,已被广泛用于农产品检测分析领域,是不可或缺的快速无损检测方法[3-4]。目前,NIRS 技术已在稻米品质检测等研究中得到了广泛的应用,但在实际生产应用中仍存在模型预测效果不佳、样品量需求高、无法跨品系预测等不足。鉴于此,本文对国内外近年来NIRS 技术在稻米的营养成分、产地溯源及掺假鉴别等方面的研究进行了分析,总结了NIRS 技术在稻米检测中的应用现状,相关研究有助于提升稻米的品质控制水平,并有利于维持良好的市场秩序。
淀粉占稻米总质量的70%~80%,是主要的营养物质,淀粉组成及含量是决定稻米品质的重要因素。其中,直链淀粉含量是稻米品质评价中的一项重要评价指标,稻米蒸煮品质中的糊化温度、胶稠度等食用品质均受稻米中直链淀粉含量的影响[5]。
利用NIRS 对稻米直链淀粉进行检测已有较多报道。如Delwiche 等[6]采用NIRS 对美国产的97 份稻谷样本进行检测并建立了直链淀粉的定标模型,其相关系数达到0.95。Kuo 等[7]采用NIRS 进行稻米淀粉碘蓝值的分析,使用偏最小二乘法(partial least-square,PLS)并结合多元线性回归(multiple linear regression,MLR)所建立模型的精确度较好。冯光[8]对203 份水稻样品进行处理后,采集精米的NIRS 数据,并结合直链淀粉含量数据,采用PLS 建立的定量分析模型,对测定精米中的直链淀粉含量具有良好的实用性。除此之外,稻米的物理形态对模型的精度存在影响。Fazeli 等[9]采用NIRS 对大米直链淀粉等主要营养品质实现了快速检测,结合PLS 进行建模,结果表明颗粒状态样品的建模效果更优。
淀粉模型的优化及特征变量筛选有助于提升模型的判别准确度。为提高模型的预测能力,Sampaio 等[10]选用联合偏最小二乘回归(partial least squares regression,PLSR)进行特征光谱区域筛选,提升了NIRS 用于直链淀粉含量测定的研究水平。Xu 等[11]采用不同的预处理方法得到高质量的NIRS 漫反射和透射数据的融合光谱,随后用PLS 进行建模的优化和校正,结果表明一阶导数处理的融合光谱模型具有最佳的预测精度。胡斌等[12]采用全校准技术对99 份籼米样品的稻谷、精米、米粉3 种物理状态下的NIRS 数据的相关性进行研究,建立了直链淀粉含量的定量模型,使米粉物理状模型的预测相关系数达到0.927。
稻米蛋白是优质的植物蛋白,其氨基酸类型和组成均衡,致敏率低。稻米蛋白含量是影响稻米食味口感的关键因素,其含量越高,蒸煮后米饭的硬度越高、弹性越低,且颜色呈黄褐色,食味品质与蛋白含量呈负相关性,因此稻米蛋白含量检测是评价稻米品质的重要指标之一[13-14]。俞法明等[15]采用PLS 对同批次籼稻样品的稻米、糙米、精米、精米粉4 种状态的蛋白质含量建模,结果表明,精米和精米粉状态样品的相关系数分别为0.911 和0.951,PLS 可以实现对稻米的鉴别。然而,PLS 难以反映光谱数据与待测目标组分之间的非线性关系。刘明博等[16]采用Martens 不确定性检验方法筛选特征波长,并利用主成分回归(principal component regression,PCR)对稻米样品的NIRS 数据进行建模,预测集的相关系数达到0.936 4,但建模中使用的样品数量仅28 个,因此准确性仍有待提高。殷坤等[17]采集150 个稻米粉末样品的NIRS数据,利用支持向量机(support vector machine,SVM)、主成分分析(principal component analysis,PCA)和反向区间偏最小二乘(Bi-PLS)构建BiPLS-PCA-SVM 模型,在保证足够的样品数量前提下,BiPLS-PCA-SVM 方法所建立的模型鲁棒性良好。
不同的数据预处理方式对蛋白质含量模型的预测精度有较大影响。田翔等[18]对191 份山西产区稻谷样品的光谱数据,采用一阶导数+矢量归一化进行预处理,分别建立稻谷蛋白质和淀粉含量的校正模型,进一步验证了在稻谷完整颗粒状态下进行谷物蛋白质和淀粉定量检测的可行性。Lin 等[19]利用近红外成像系统测定大米的蛋白质含量,并运用MLR、PLSR 和人工神经网络模型对6.18%~9.43%的水稻蛋白进行了数据分析,结果表明,该近红外成像系统具有操作简单、检测精度高的优点,在大米蛋白质含量的无损检测中具有一定的应用潜力。除了上述的NIRS 技术在稻米蛋白质量含量检测的研究外,也有部分研究者针对稻米中的氨基酸含量进行快速检测,如Zhang 等[20]筛选了279 个糙米颗粒及其粉状样品进行NIRS 数据的采集,利用NIRS 对糙米中的氨基酸总量和组成进行预测,结果表明,所建立的13 种氨基酸的模型可用于糙米中氨基酸的估算。
脂肪酸值是在稻米检测系统中对稻米新陈度进行判定的最主要指标。稻米脂肪酸值的高低与稻米品质和霉变均有很高的相关性。林家永等[21]采用修正偏最小二乘法(modified partial least square,MPLS)、PLS、PCR 三种方法建模,结果表明,模型的脂肪酸值的预测相关系数达到0.961,准确性较高,并采用此模型研制了便携式稻谷品质测定仪。陈晓玲等[22]利用MPLS 建模,相关系数达0.993。Liu 等[23]采集稻米两种物理形态(颗粒、米粉)的NIRS 数据,采用PLS 和竞争自适应重加权抽样(competitive adaptive reweighted sampling,CARS)建立水稻游离脂肪酸测定的最优回归模型。结果表明,利用精米颗粒光谱与CARS 方法结合建立的游离脂肪酸模型效果更好,与米粉光谱相比,精米颗粒光谱更好地保留了样品游离脂肪酸值的信息。
特征变量的筛选有助于提升模型的判别准确度。杨东等[24]利用邻域粗糙集(neighborhood rough set,NRS)算法最终选出最优的10 个特征波长;结合随机森林(random forest,RF)算法建立了稻谷贮藏品质鉴别模型,模型测试集判别率达到93.68%,表明了NIRS 数据结合NRS 和RF 算法用于稻谷判别的可行性。Jiang 等[25]采集不同的储存时间稻谷的NIRS 数据,将变量选择乘性散射校正算法加权用于散射校正,利用特征波长实现大米储藏中脂肪酸值的快速监测,结果表明基于变量选择乘性散射校正算法的最优PLS 模型的性能显著优于PLS模型,该研究还成功应用于便携式稻米脂肪酸值NIRS动态监测系统的研发。
地理标志稻米和优质品种稻米均因其品质优、营养价值高、口感佳等优点成为稻米选购市场中的优选品。但其价格相对于普通大米略高,因此市场上不法商贩以次充好、掺假卖假的现象屡见不鲜[26],严重影响了市场经营秩序和消费者利益。因此,稻米产地和品种溯源的研究和应用也非常迫切。
近年来关于地理标志稻米的溯源研究较多。李勇等[27]采集了黑龙江、湖北、江苏、辽宁4 省份的169 个稻米的光谱数据,结果证明采用PCA-线性判别法可有效实现大米产地的溯源,识别准确率高达93%。钱丽丽等[28]采用Fisher 判别法对产自黑龙江省5 个稻米主产区的118 份稻米粉末样品的光谱数据进行建模,初步认定NIRS 可用于黑龙江稻米的产地溯源。除此之外,有研究针对150 份三江及非三江地区的大米的NIRS 数据,采用因子化法进行鉴别分析,模型的正确判别率均在90%以上[29]。
为进一步提高判别率,钱丽丽等[30]对212 份稻米样品进行数据采集,采用PLS 建立产区溯源判别模型,研究结果表明,各模型均适用于产地溯源研究,判别正确率均在95%以上。与此同时,对查哈阳地理标志稻米进行溯源判别研究的结果表明,因子化法定性模型的鉴别正确率为100%,PLS 定量分析模型的鉴别正确率为95.83%,且研究发现提高单类品种的样品数量有助于提升判别准确率[31]。除了利用PLS 方法建模之外,也有其他方法可用于稻米产地溯源鉴别[32]。钱丽丽等[33]研究证实5 136~5 501 cm-1范围内产地因素差异显著,建模结果表明因子化法定性分析模型及聚类分析模型对五常和三江地区稻米产区的正确判别率均高于97.00%。
除了稻米产地的溯源研究外,稻米品种的鉴别的研究也是农业研究中亟需关注的。现有研究证实了NIRS结合PLS、BP 神经网络等模型可应用于水稻品种真伪鉴别的建模开发。Dowell 等[34]对单粒麦粒进行NIRS 数据采集并进行自动分类,研究结果表明其可准确地区别野生型麦粒、糯麦和偏糯麦。Davrieux 等[35]采用NIRS 对泰国香味稻米进行真假鉴别,运用PLS 建立模型,模型鉴别准确率达到97.4%。周子立等[36]采用PCA 对不同稻米品种光谱数据进行聚类后用小波变换技术提取特征光谱信息,运用BP 神经网络方法建立稻米品种鉴别模型,所建立的大米品种鉴别模型的识别率达到100%。林萍等[37]采集了东北长粒香、泰国香米和御贡香米这3 个品种稻米的NIRS 数据,用遗传算法结合PLS 进行预处理,并利用BP 神经网络建模,使预测集的预测准确率达到100%,遗传算法结合PLS 提高了BP 神经网络预测的精确度。不同的预处理方法对模型判别准确率的贡献有所不同。王欣卉等[38]采用一阶导数+矢量归一化+5 点平滑对光谱数据进行预处理,结合PCA 建立的定性模型的鉴别准确率为94%;采用二阶导数+9 点平滑进行预处理并利用PLS 建立的定量模型鉴别准确率为100%。
市场中不同品种和品质的稻米由于营养成分的差异性造成了价格的差距。食品掺假的一个关键特征是使用低价值的成分来模仿真实的产品。周晓璇[39]将稻花香大米(高档米)掺入江苏品种(低档米)大米中,并采集130 个样品的NIRS 数据,采用4 种不同的方法对光谱数据进行预处理,并分别结合PLS 建立定量分析模型,结果表明,最大最小归一化法进行光谱预处理的模型效果最优,训练集的相关系数和均方根误差分别为0.969 8 和8.66,预测集的相关系数和均方根误差分别为0.984 5 和6.46。刘亚超等[40]选择东北米、金龙鱼长粒香等6 种肉眼难分辨的稻米以不同比例掺入五常稻米中,并以五常大米NIRS 的平均光谱作为参考谱,将掺杂米光谱和五常米光谱分别与参考谱进行二维相关运算,结果表明,掺杂比例在20%及以上的样品鉴别正确率为100%。该方法可有效解决NIRS 对样本需求量大的缺陷,为快速进行稻米掺伪鉴别提供研究思路。
此外,秦润蒙[41]利用KNN、SVM 及以及基于Adaboost算法改进的Adaboost-KNN 模型、Adaboost-SVM 模型四种机器学习方法建立大米掺假的快速鉴别模型,结果证实,KNN、SVM、Adaboost-KNN 及Adaboost-SVM 这4 种模型的最低检测下限是2%,预测准确度均高于97%。Liu等[42]运用PLS-DA 和SVM 针对不同物理形态的样品(全颗粒、40 目、70 目、100 目)样品的光谱数据建立定性模型、采用PLS 进行定量模型。研究结果表明,PLS-DA 和SVM 的定性模型的检出下限均为5%;在PLS 定量分析模型方面,预测模型的性能与样品物理状态相关,样品尺寸为100 目>70 目>40 目>全谷物。
稻米的主要营养成分多分布在米糠层,会随着加工而被碾除,使营养成分不能被充分利用,因此研究加工精度对稻米品质特性的影响较大。Liew 等[43]采集了123 个掺假稻米的NIRS 数据,运用PCA 和逻辑回归(logistic regression,LR)建立掺假模型,模型的训练准确率达到94.4%,独立测试集准确率达到99.4%,表明PCA 和LR相结合在稻米掺假检测中具有可行性。周军琴[44]利用NIRS研究稻米的不同加工精度,结果显示PLS-DA 建模预测稻米加工精度的准确率为89.5%,该研究表明了利用NIRS 在线监测大米的加工精度的可行性。
综上所述,NIRS 在稻米无损检测研究中得到了很好的应用,在稻米的营养品质分析、产地溯源、掺杂溯源等领域取得了一定的成效,且与化学计量学结合提高了溯源分析的准确性。尽管如此,NIRS 技术用于稻米分析仍然存在一些问题。一是,在稻米的营养品质检测中,在采集样品过程中,品种的差异性较大,只能针对每种样品单独进行研究,所建立的模型缺乏普适性。二是,在稻米的产地溯源和品种鉴别研究中,需要单品种或单种类样品数量足够多,才可能保证模型鉴别率的准确性。三是,稻米加工方式和精度的鉴别分析研究较少,随着谷物质量和营养需求的日益增高,相关研究亟待加强,为提高稻米营养与质量安全建立快速完善的溯源分析体系。