王朝辉 杨郡洲 王艳辉 赵 倩赖汉卿 陈 雷 王靖会
(吉林农业大学食品科学与工程学院1,长春 130118) (吉林省长春市净月开发区福祉街道办事处2,长春 130122) (广东地球土壤研究院3,广州 510145) (吉林省长春市交警支队南关区大队4,长春 130000) (吉林农业大学信息技术学院5,长春 130118)
大米作为世界范围内消费者认可的主食之一,其营养成分提供了90%以上人体所需营养元素,食用价值极高[1-2]。梅河大米因产地独有自然因素与人文因素,其大米产品经国家审批成为“地理标志产品”,受到消费者的认知和青睐[3-5],但时有虚假来源大米流入市场的现象发生,反映出缺少相关产地确证研究的问题。
食味品质指标作为大米食用品质优劣的评测标准,因不同生长环境可以影响各指标含量,所以食味品质指标也逐渐应用于大米产地确证研究。国内现有研究中,钱丽丽等[6]通过对大米食味品质指标中蛋白质、直链淀粉、脂肪、灰分含量进行判别分析,交叉检验,验证了上述指标可以成为大米产地鉴别的潜在因素。田福林等[7]通过对脂肪酸含量进行主成分与聚类分析,成功区分四个不同产地来源大米。但现阶段大米产地确证研究手段中,实验方法多集中于化学实验,需要对样品进行大量前期处理工作,如打粉、研磨、消化等步骤,无法做到快速无损检测[8-9]。
高光谱成像技术(Hyperspectral Imaging,HSI)结合了近红外光谱和数字成像。提供了一种非接触式,无损快速检测手段。高光谱成像技术能够建立三维“超立方体”数据集,不仅可以观测样本图像,也可对单一像素点进行光谱数据提取[10]。现阶段国外高光谱成像技术多应用于测量各种食品中化学成分的分布,包括肉类、鱼类、水果、蔬菜、和谷物方面的应用[11]。Munir等[12]通过高光谱成像技术建立了高光谱图像与牛奶关键质量属性之间的相关性关系。Nicola等[13-14]通过高光谱成像对小麦籽粒中总蛋白含量进行了无损检测,并建立含量预测模型。又通过高光谱成像技术对生咖啡豆的蔗糖、咖啡因等指标进行了无损分析,并建立PLS回归模型以量化咖啡成分。王璐等[15]也在高光谱图像与波谱图像相结合的研究中成功共同表征了大米的水分、蛋白质、淀粉成分含量。孙俊等[16]通过对光谱信息采集并通过多种算法结合全光谱波段建立大米掺假判别模型,多模型判别准确率均在90%以上。
本研究利用高光谱成像技术快速无损反映大米内部信息的特点,弥补食味品质指标产地确证方法在样品破坏性和检测速度方面的不足。并通过光谱信息与食味品质指标的结合对全波长光谱进行特征波长提取,相关性分析与产地判别,尝试探究梅河大米基于高光谱成像技术的产地确证因子。
1.1.1 大米样品预处理设备
JLGJ4.5砻谷机,HNMJ3碾米机,JXFM110锤式旋风磨。
1.1.2 高光谱成像设备
Imspector V10E-QE高光谱采集系统成像光谱仪,C8484-05G CCD相机,V23-f/2.4 030603镜头,P/N 9130线光源,2900ER控制器,GZ02DS20可升降样品台,PSA200-11-X电控位移台,9589-EKE-ER全光谱卤素灯光源。
1.1.3 蛋白质含量检测设备
蛋白质检测采用蛋白质快速检测仪:ATN-100型凯氏定氮全自动检测仪。
1.1.4 脂肪酸组成含量检测设备
Agilent7890B-GC样品检测仪器;Agilent DB-WAX色谱柱;载气:氮气;燃气:氢气空气;进样口250 ℃、柱箱起始温度为50 ℃。
现阶段大米产地确证研究中,样品采集多依赖于市场采购,造成样品来源不稳定。
本次实验中,样本采集方法采用空间网格布点法,该方法现多应用于土壤检测、城市监测、施工布点等方面。空间网格布点法通过对样本分布不均匀区域进行网格划分,在网格交界点或交界区域内进行样本采集,样品具有代表性、随机性,并且有效反映了产地大米总体分布特征。
梅河口市作为本次试验样品来源地,坐落于吉林省中部和东部核心区节点城市,市内种植区域多依傍于大柳河、大沙河、一统河三大河系。梅河口市四季分明,年平均气温为4.5~5.3 ℃,年均降水量750 mm左右,在水稻生长期间,可保持较为优异的生长环境。
通过奥维(Omap)卫星地图比例尺网格功能对梅河口市按照5 km×5 km规格进行区域划分,将地图中网格交界点处的大面积梅河大米种植区域进行标记,作为目标采样点。并通过实地调研,确定以A-海龙镇B-湾龙镇C-黑山头镇D-山城镇E-吉乐乡五个主产区作为采样区域,如图1所示。采样区域内以五点采样法、蛇形采样法、对角线采样法等为主。每区域设置6个采样地块,各采样地块内布置10个采样点,共300个梅河大米样本,收集大米植株样本,使用取土器收集对应根系土壤并记录采样样品位置空间环境信息。
图1 梅河大米地理概况及采样点示意图
1.3.1 样品前处理
采集到样品后,使用带有通气孔的包装袋包装,防止样品变质及混淆,待返回实验室,在室内进行常温阴干至全部样品水分含量稳定在14%左右,后进行编号、去杂叶、脱壳、砻谷、精白等工作。在预留出高光谱实验所需完整米粒样本后,将剩余样品根据不同实验方法的要求进行锤式旋风磨粉碎、过筛、封装、-4 ℃低温保存。
1.3.2 高光谱数据采集
将高光谱数据采集装置设定为物距为13.5 cm,曝光时间为15 ms,位移台移动速度为1.62 mm/s。采集高光谱图像时,由于暗电流、光源强度及外界环境影响会对高光谱检测带来信号干扰,为了减除噪声带来的误差影响,每次高光谱数据采集后都进行黑白板矫正。放入黑色底板后将每个采样点大米米样取15粒按5×3的摆放方法均匀放于底板上,对黑白色进行标准矫正,准备工作完成后,依次对各区域样品进行图像采集。
1.3.3 高光谱感兴趣区域选择
高光谱成像技术所获取的初始数据为三维“超立方体”数据集,包含了样品外部及内部特征信息,信息量繁多,需要进行感兴趣区域(Region OF Interest,ROI)选择,对特定区域进行光谱信息采集、提取。为后期数据的挖掘、分析奠定了基础。
感兴趣区域(Region of interest,ROI),利用ENVI5.0软件自带的ROI提取工具进行提取。将各个采样点内的15粒被测样品作为ROI选取对象,每一粒样品大米进行10×10像素区域提取。数据通过ENVI 5.0软件提取为TXT文本格式,人工转置为CSV文本,导出数据待后续处理。
图2 大米样品摆放及ROI区域选择示意图
1.3.4 脂肪酸数据检测
将13.1 g KOH溶于100 mL无水甲醇中,实验过程中如KOH溶解较慢,可适当进行加热。后加入无水硫酸钠吸附、过滤,得到澄清溶液。将澄清溶液收集备用。
米粉过100目筛,称取60 mg并加入4 mL异辛烷溶解实验样品,经过短暂静置,加入200 μL氢氧化钾甲醇溶液,闭合管盖,剧烈震荡摇晃30 s后静置至上层澄清后,加入1 g硫酸氢钠,猛烈震摇,以将固体盐成分沉淀,取上层清液至棕色上机瓶内,待测。
1.3.5 直链淀粉检测
根据GB/T 15683—2008/ISO6647-1:2007进行样品检测。
2.1.1 特征波长选取
高光谱成像综合了图像与光谱技术,其数据集包含大量样本内部信息与外部信息。从原有图谱中提取与样品食味品质指标相关的特征波长,以代替冗余信息过多的全波长,称之为特征波长的选取。
高光谱仪器在成像过程中,会由于机器自身运行与外界环境等因素产生噪声信号,故将图谱中400~450 nm及950~1 000 nm两个噪声波段进行筛除,并对原始光谱进行一阶导数算法处理。
待处理完毕,原始数据自动保留374个波段。但是数据量依旧庞大,不利于后续数据分析。需通过MATLAB软件对数据进行连续投影算法(Successive Project Algorithm,SPA)对光谱数据进行降维处理。连续投影算法在近年来多应用于谷物以及土壤方面的光谱检测中,该方法可以从光谱全谱信息中自动剔除带有冗余信息的变量组,将可以代表全谱变化趋势的剩余光谱代替原始数据,其中心思想为降低数据维度。
将全谱数据导入MATLAB软件内,运行连续投影算法代码,数据降维后剩余14个波长BO1~BO14(455、492、515、583、615、621、650、719、776、802、845、874、923、942 nm),该14个波长以少量信息反映了光谱全波长的变化趋势,大大减少了实验、分析时间。但是初步筛选出的波长,同时也包含了其他指标信息,如大米内部其他元素含量变化等。所以需要通过相关性分析,筛选出可以反映梅河大米食味品质指标含量变化的特征波长,进行产地确证因子的提取。
图3 梅河大米高光谱成像谱图
2.1.2 梅河大米理化指标与特征波长相关性
初步得到梅河大米14个降维后的高光谱波长后,将其与梅河大米理化指标含量进行相关性分析,验证哪些波长与指标之间存在相关关系,且可以反映出食味品质指标的含量变化趋势,最终检验特征波长是否具有产地判别的能力。由表1可知,梅河大米蛋白质含量与高光谱14个降维后得到的波长中的515 nm(BO3)、874 nm(BO12)、923 nm(BO13)波长具有极显著正相关。直链淀粉含量与高光谱谱图455 nm(BO1)、515 nm(BO3)、874 nm(BO12)波长存在极显著正相关关系,且在515 nm(BO3)波长处相关性极为突出。棕榈酸含量与高光谱谱图455 nm(BO1)、776 nm(BO9)、874 nm(BO12)波长呈现极显著正相关关系。油酸含量与高光谱谱图455 nm(BO1)、615 nm(BO5)、874 nm(BO12)波长呈现极显著相关性,且621 nm(BO5)波长呈现显著相关关系。亚油酸在455 nm(BO1)、583nm (BO4)波长呈现显著相关关系。硬脂酸与各个波长无显著相关性。脂肪酸总量在874 nm(BO12)、942 nm(BO14)波长呈现极显著相关性在455 nm(BO1)波长处具有相关性。但上述食味品质指标与492 nm(BO2)、650 nm(BO7)、719 nm(BO8)、802 nm(BO10)、845 nm(BO11)波长无显著相关关系。
表1 梅河大米食味品质指标与高光谱特征波长相关性
注:标记符号为*和**,分表表明梅河大米食味品质指标与高光谱所提取特征波长分别在P=0.05和0.01上显著相关。
表2 梅河大米及其他地区大米食味品质指标差异性分析
注:上表数据统一为平均值±标准偏差;数据显著性水平P<0.05。
结果表明,TB1~TB9(455、515、583、615、621、776、874、923、942 nm)该九个波长可以良好的反映梅河大米食味品质指标的含量变化,可以作为梅河大米高光谱特征波长进行产地确证研究。
通过对梅河口市、舒兰市、柳河县、辉南县大米样品的食味品质指标(蛋白质、淀粉、棕榈酸、硬脂酸、油酸、亚油酸、亚麻酸、肉豆蔻酸及脂肪酸总量)的方差分析,探究各理化指标含量各地区空间分布属性,见表2。
通过表2可以得出,梅河口市及其他地区不同产地来源大米之间蛋白质含量、直链淀粉含量、棕榈酸、油酸、亚油酸、脂肪酸总量呈现极显著差异性,硬脂酸呈现显著差异性。证明梅河大米食味品质指标与其他地区大米由于不同的产地来源以及不同的生长环境,产生地区差异性。
为了验证筛选后的九个高光谱特征波长TB1~TB9(455、515、583、615、621、776、874、923、942 nm)产地确证能力,选取距离梅河口市仅34.8 km的柳河县为小范围近似地域进行判别分析。柳河县大米由于其良好的生长环境,种植区域常年受一统河、三统河两个流域的灌溉,所产出的大米也被列为地理标志性产品。
将九个特征波长作为产地确证指标,建立FISHER判别模型。选取50个梅河大米样品与10个柳河县大米样品数据建立训练集模型。再取30个梅河大米样品与10个柳河县大米样品数据建立验证集模型。
Fisher线性判别函数如下:
MH=98.26TB1+32.67TB2-6.25TB3+13.81TB4-7.33TB5+11.72TB6+72.50TB7-6.79TB8+8.25TB9-285.47
LH=72.66TB1+30.52TB2-8.66TB3+5.26TB4-5.89TB5+10.88TB6+60.89TB7-8.99TB8+7.55TB9-312.89
表3 不同产地FISHER判别函数分类结果b,c
产地预测组梅河大米柳河大米合计验证集初始交叉验证计数%计数%梅河大米柳河大米梅河大米柳河大米梅河大米柳河大米梅河大米柳河大米282300101093.36.7100010010027330191090101001090100
注:a.仅对分析中的案例进行交叉验证。在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。b.已对初始分组案例中的95%个进行了正确分类。c.已经对交差验证分组案例中的91.7%进行了分类。余同。
由表3数据表明,训练集产地判别正确率达到了95%。交叉验证表明,梅河大米中92%的样本被正确区分,柳河县大米中有百分之90%的样本被正确划分。验证集整体产地判别正确率达到了95%。交叉验证表明,梅河大米中92%的样本被正确区分,柳河县大米中有百分之90%的样本被正确划分。
九个特征波长可以作为产地确证因子对梅河大米与柳河县大米进行产地判别。
图4是用9个高光谱特征波长对梅河稻区及通化市柳河县稻粒样品构建SIMCA模型,利用偏最小二乘判别分析(OPLS-DA)检测梅河稻区及通化市柳河县大米,评估PLS组分1与组分2的分类图,分别解释了总变异的37.4%和19.2%。由图4可知,所有样本(n=55)在OPLS-DA分数图中可以清楚的分为两类,其中,梅河稻区样本(n=1~45)聚集落在图中间位置,而通化市柳河县样本(n=46~55)落在图右侧位置可以与梅河稻区样本区分。
图4 梅河稻区及通化市柳河县稻粒样品SIMCA模型
基于高光谱成像技术(Hyperspectral Imaging,HSI),通过对梅河大米高光谱数据连续投影算法(Successive Project Algorithm,SPA)降维,筛选出BO1~BO14(455、492、515、583、615、621、650、719、776、802、845、874、923、942 nm)14个降维后波长,结合梅河大米食味品质指标相关性分析,表明其中九个高光谱特征波长TB1~TB9(455、515、583、615、621、776、874、923、942 nm)与蛋白质、直链淀粉、棕榈酸、油酸、亚油酸、脂肪酸总量食味品质指标呈显著相关。对9个特征波长进行梅河大米与柳河县大米的SPSS判别分析,其整体判别正确率达到了95%,且梅河大米产地判别正确率达到94%。建立SIMCA偏最小二乘法模型,评估PLS组分1与组分2的分类图,模型分别解释了总变异的37.4%和19.2%,在模型图上将梅河大米样本和柳河县大米样本进行区分,2种方法均验证了高光谱9个特征波长具有梅河大米产地确证能力,可以作为产地确证因子。高光谱成像技术在产地确证研究方面可以提供新的可行性研究思路与一种非接触式、快速无损的检测手段,更具有普适性与实用性。