黄 华, 祝诗平, 卓佳鑫, 刘广昊, 朱 洁, 吴习宇, 于丽敏
1. 西南大学工程技术学院, 重庆 400716 2. 西南大学食品科学学院, 重庆 400716 3. 山东农业工程学院, 山东 济南 250100
胡椒分为白胡椒与黑胡椒两种类型, 原产于印度。 胡椒粉不仅可以作为调味料, 还具有较高的药用价值, 因此胡椒作为一种经济作物在世界上多数热带地区都有种植, 如中国的海南省和云南省都在发展胡椒产业[1]。 随着胡椒经济价值的增加, 近年来胡椒的掺假产品也在市场上有报道。 由于木瓜籽与黑胡椒具有相似性, 因此有学者[2]对于在黑胡椒中掺入木瓜籽进行了相关的研究。
胡椒含有挥发油和胡椒碱[3]等成分。 目前的研究主要是通过胡椒粉末中胡椒碱的含量来鉴别胡椒粉的真假。 对胡椒碱的检测方法有比色法[3]、 高效液相色谱法[4]、 DNA法[5]、 紫外光谱法[6]和近红外光谱法[7-9]等。 例如, Smita G Patil[6]等使用紫外可见光谱仪发现胡椒碱在343 nm处具有最大的吸光度, 并利用该波长点建立了预测胡椒碱含量的线性回归方法。 Umang Shah[7]等利用近红外光谱仪结合偏最小二乘法和主成分分析等化学计量学方法检测了黑胡椒中胡椒碱的含量, 该方法具有检测速度快、 不破坏样品等特点。 Hamrapurkar[4]等利用高效液相色谱法预测胡椒中胡椒碱的含量, 其预测精度高。 Madan[10]等利用胡椒粉中皂化值、 碘值以及皂化值和碘值比值作为参数, 分析了黑胡椒中掺入木瓜籽的情况, 其能识别的最小掺杂量为15%。 Parvathy[5]等利用DNA条形码对黑胡椒粉末中掺入辣椒粉进行研究, 其可以检测的最小掺杂量为0.5%。 陈家华[11]等利用液相色谱法通过测定样品中的胡椒碱的含量来判别胡椒的真假, 其相关系数达到0.99。 吴习宇[8]等利用近红外光谱仪对花椒中掺入麦麸和稻糠等杂质进行了研究。 McGoverin[9]等比较了近红外和中红外光谱法对黑胡椒中掺假荞麦和小米的识别结果, 发现利用近红外比中红外具有更高的准确度。
高光谱成像不仅可以获得物质光谱信息, 还有空间位置信息。 因此利用高光谱成像技术为实现定位掺假物的位置提供了可能。 Mishra[12]等应用高光谱成像技术研究了在面粉中掺入0.1%~10%花生粉的检测方法, 其模型的相关系数为0.94。 Vermeulent[13]等利用高光谱成像技术对麦角和面粉的混杂进行了识别, 其模型的相关系数达到0.99。 Barreiro[14]等使用推扫式高光谱仪研究了花生粉在牛奶粉中的掺假情况。
白胡椒粉末与面粉颜色非常接近, 如果在白胡椒粉末中掺入少量的面粉很难通过人的视觉或嗅觉判别, 因此有必要利用高光谱成像技术预测面粉在白胡椒粉末中的含量和定位面粉在白胡椒粉末中的掺入位置。 本研究为实现快速、 无损和可视化鉴别白胡椒真假提供一种参考方法。
制备白胡椒60份, 每份取重量500 g, 利用粉碎机将白胡椒颗粒粉碎, 然后通过60目的筛网筛选, 获得纯白胡椒粉末样品。 纯面粉成品从超市购得。 使用精度为0.1 mg的分析天平从制备的白胡椒粉末样品中取出5 000 mg粉末, 按照1%~60%的比重和1%的梯度将纯面粉掺入到纯白胡椒末中; 利用搅拌机将样品搅拌均匀, 使面粉与白胡椒粉充分混合, 即得到掺杂浓度不同的样本粉末60份; 再取纯白胡椒粉和纯面粉各一份样品, 即一共组成62份样品。 将样品放入尺寸为6.80 cm×6.80 cm样品池中, 利用刮刀在样品池表面反复刮动, 使样品表面平整。 如图1(a)所示。
图1 掺入25%的面粉样本图像
图1是在白胡椒粉中掺入25%的面粉的图像, 该样品总质量为5 342.7 mg, 其中白胡椒粉为4 007.0 mg, 面粉为1 335.7 mg。 图1(a)是由分辨率为3 024×4 032的相机拍摄获得。 为了减小样品水分含量对光谱的影响, 再将样品经BH-2型鼓风干燥机干燥1小时后取出为高光谱扫描做准备。
选用五铃光学的VNIR-HIS-B1621可见/近红外成像系统作为高光谱图像采集系统。 该系统主要由CCD相机(Raptor EM285CL, USA)、 363~1 025 nm光谱成像仪(Imspector V10E, Oulu, Finland)、 IT 3900型150 W卤素光源、 移动平台和暗箱等组成。 高光谱相机使用35 nm镜头, 镜头与样品池的距离为30 cm, 高光谱的图像分辨率1 632×1 232, 曝光时间20 ms, 载物台的移动速度为0.79 mm·s-1。 计算机通过Hyper Spectral Image软件来控制摄像机和样品台的操作。 获得的高光谱伪彩色图如图1(b)所示。 图1(b)是由波长分别为680, 550和470 nm等3个波长点合成的RGB三基色伪彩色图像。
1.3.1 目标区域提取
对制备的62份样品, 每份样品单独装入样品池中进行高光谱扫描, 即共获得62份高光谱数据。 图1(b)所示的高光谱图像空间分辨率为1 632×1 670。 利用大小为700×700的矩形框从原始高光谱图像中提取目标区域。 如图1(b)中红色矩形框区域为目标区域, 然后通过计算目标区域内所有像素点的平均光谱数据, 重复此操作获得62份扫描样品的平均光谱数据。 样品的反射光谱曲线如图2所示。
图2 样品反射光强度曲线
图2中横轴为波长, 纵轴为反射光强度, 选取的目标区域波长范围是465~897 nm。 在波长678 nm附近反射光强度较高, 随后两端呈下降趋势。 从图2中可以直观的观察到随着面粉掺杂含量的逐渐增加, 样品反射光强度随之增大。 如图2中最上方的光谱曲线为纯面粉, 其反射光强度最高; 最下方的光谱曲线为纯白胡椒粉, 其反射光强度最低。
在高光谱成像系统中, 光源强度并不是均匀分布的, 通常需要按式(1)进行白板与黑板校正, 从而将图2中原始光谱的反射强度转换成反射率。
(1)
式(1)中E为校正后的高光谱数据,EO为原始高光谱数据,EB为参考黑板的光谱数据,EW为参考白板的光谱数据。 在图1(b)所示的样品池上方贴有白色胶带用于白板校正, 即从原始光谱数据中提取白色胶带区域的平均光谱作为EW。 这样可以避免每次光谱扫描时都要做单独的白板校正。 经过白板与黑板校正后的反射率曲线如图3所示。
从图3中可以看出, 随着波长的增加, 样品的反射率总体呈现出缓慢上升的趋势; 由于白胡椒粉末对光谱的吸收度大于面粉, 因此随着样品掺杂浓度的增加, 反射率比值就越大。
图3 样品光谱反射率曲线
1.3.2 模型建立与评价
偏最小二乘回归(partial least square regression, PLSR)建模方法广泛应用光谱的定量分析中。 将获得的62份样品高光谱数据分成校正集与预测集, 随机选出42份样品作为校正集, 余下20份样品作为预测集。 在校正集中, 利用PLSR方法建立面粉在白胡椒粉末中的含量的定量分析预测模型; 再将校正集中的光谱数据代入PLSR的回归模型中, 获得白胡椒粉末掺杂面粉的浓度含量值; 最后利用相关系数法和最大最小判别准则在原始光谱图像中标记面粉的位置。
在光谱的预处理中, 常见的方法[15]有去中心化(Mean)、 标准正态变换(standard normal variate, SNV)、 多元散射校正(multiplicative scatter correction, MSC)、 应用Savitzky-Golay平滑的一阶导数(first derivatives, SAVG1)和二阶导数(second derivatives, SAVG2)等。 以及将以上方法两两组合的复合预处理方法。 本工作将分析比较未做预处理(None)、 Mean、 SNV、 MSC、 MSC+Mean、 MSC+SNV、 SAVG1和SAVG2等8种方法对建立PLSR预测模型的影响。 根据校正集均方根误差(root mean square error of calibration, RMSEC)、 预测集均方根误差(root mean square error of prediction, RMSEP)、 校正集相关系数(correction of calibration,RC)、 预测集相关系数(correction of prediction,RP)来评价PLSR模型的预测性能。 在不同主成分(principal component, PC)下, RMSEP值越小,RP值越大, 说明该模型预测性能越好。
对校正集中的42份样品利用偏最小二乘回归法(PLSR)建立识别白胡椒粉末中面粉含量的预测模型, 然后再利用该预测模型对预测集中的20份样品进行检验。 为了获得最佳的预测模型, 分析比较了将原始的光谱数据分别通过Mean、 SNV、 MSC、 MSC+Mean、 MSC+SNV、 SAVG1和SAVG2等不同的预测处理方法后的预测结果。 如表1所示。
表1 白胡椒粉末中掺入面粉含量预测结果
从表1可以看出, 不同的预处理方法在校正集中都有较好的相关系数, 其RC均达到0.99。 这主要是由于在白胡椒粉末中掺入面粉后, 随着掺入面粉浓度的增加其光谱的反射率也随之增加, 表现出较好的相关性和线性关系。 在这8种预处理方法中采用SAVG1预处理方法时, 其RMSEC最小为0.83%, 其所对应的预测集的RMSEP也最小为2.73%。 在SAVG1预测处理下, 画出掺杂面粉1%~60%的预测集与校正集的回归曲线, 如图4所示。
图4 PLS回归曲线
高光谱成像技术不仅可以获得被测物体的光谱信息, 还能将每一条光谱曲线与物体空间位置上的一个点联系起来, 这样既可以获得光谱信息, 又可以获得图像信息。 为了能在掺入面粉的白胡椒粉末样品中定位面粉掺入位置, 利用相关系数法和最大最小判别准则进行识别。
按式(2)计算样品与纯胡椒粉末和面粉的相关系数
(2)
式(2)中,X为样品的光谱,Y为纯面粉光谱,Z为纯胡椒粉末光谱。 COV表示协方差函数,σ表示方差。R1为样品与纯面粉的相关系数, 其数值介于0~1之间, 若样品的光谱曲线越接近于面粉, 则R1数值越大;R2为样品与纯白胡椒粉末的相关系数。 在白胡椒粉末中掺入面粉的含量越高R1的数值将越大, 而R2的数值将越小。 以含25%面粉的样品为例, 为了显示方便仅显示原始图像中心位置点一行的相关系数, 即在原始的数据700×700矩阵中取出第300行, 第300~399列位置点所对应的100条光谱, 计算其与纯面粉相关系数和纯白胡椒粉末的相关系数, 如图5所示。
图5 样品与纯面粉和白胡椒粉的相关系数
在图5中下方的曲线表示样品与面粉的相关系数R1, 上方的曲线表示样品与纯胡椒粉末的相关系数R2。 从图5中虚线所示峰值点可以看出, 当R1相关系数达到最大时,R2的相关系数将达到最小。 反之若该位置是纯白胡椒粉末的光谱, 则R1达到最小,R2最大。 因此可以利用最大最小的判别准则来判别该位置点是否是面粉。 最大最小的判别准则步骤如下: 首先计算R1与R2的差值, 获得新的数据R, 然后将R按由小到大的顺序排序, 再利用PLSR预测面粉含量的预测结果为判决门限值, 以此门限值将R中相应的位置点判别为面粉。 以白胡椒粉末中掺入25%的面粉为例说明该判别方法, 首先将掺入25%面粉的原始光谱数据经过Mean预处理后, 代入PLSR回归模型中, 预测掺入面粉的含量为22.67%; 分别计算该原始光谱与纯白胡椒粉末和面粉的光谱之间的相关系数获得R1和R2, 再计算R=R1-R2; 然后将R值按由小到大的次序排列, 将R中前22.67%个数据点判别为面粉, 最后在原始图像中标记这些被判别为面粉的位置点。 如图6所示。
图6 胡椒粉末中掺入25%面粉识别结果
图6(a)是掺入25%面粉的样品在550 nm波长处的灰度图像。 图6(b)是利用相关系数法和最大最小判别准则后, 在图6(a)原始灰度图像中标记出面粉的位置, 图中白色显示部分表示面粉。 为了更加清楚地在白胡椒粉末中显示出掺入面粉的情况, 将图6(b)转换成二值图像, 黑色表示白胡椒粉末, 白色表示面粉, 并放大7倍后显示, 其结果如图7(b)所示。 其他掺杂比例的结果如图7(a—f)所示。
图7 放大7倍后的识别结果
对60份按照1%~60%的配比和1%的梯度将纯面粉掺入到纯白胡椒末中的样品进行高光谱扫描。 计算每份样品的平均光谱, 经Mean预处理后, 运用PLSR方法建立预测面粉含量的定量分析模型, 其校正集的RMSEC为0.83%, 预测集的RMSEP为2.73%, 校正集与预测集都具有较高的相关系数RC=0.99,RP=0.98。 PLSR建模有较好的预测效果, 主要原因是白胡椒粉末与面粉对光的吸收程度不同, 面粉的光反射较强, 而白胡椒粉的光吸收较强。 因此随着面粉掺入浓度的提高, 光谱的反射系数就越大, 表现出较强的相关系数。 但是PLSR建模是利用样品的平均光谱数据, 由于在推扫式高光谱仪的分辨率为1 632×1 232下, 每一份样品的光谱矩阵大小为1 670×1 632×1 232个光谱数据点, 即每一个样品都有1 670×1 632条谱线, 其谱线的变化范围超过了434条平均光谱的变化范围, 因此不能将样品中各个空间位置点的谱线代入PLSR回归模型中, 这样会造成较大的预测误差。 为了在原始光谱图像中标记出面粉的具体位置, 采用了相关系数法和最大最小判别准则, 分别计算原始光谱矩阵中的每一个空间位置点的谱线分别与纯面粉和纯胡椒粉末相关系数, 根据该空间位置点与纯面粉和纯白胡椒粉末的相关系数的差值进行判别该位置点是否为面粉。 应用最大最小判别准则的关键点是确定判决门限; 以PLSR预测的浓度含量为门限值; 从而在原始光谱图像中定位出面粉的位置。 实验表明利用高光谱成像技术, 不仅可以预测白胡椒粉末中掺入面粉的含量, 还可以通过空间位置点的光谱数据定位面粉在白胡椒粉末中的位置。 今后将进一步研究利用高光谱成像识别在胡椒粉末中掺入多种物质的方法。