刘宇佳,贺丽苹,张 泳,吕雪娟,曹 庸,高新开
(1.华南农业大学应用化学系,广东广州 510642;2.华南农业大学食品学院,广东广州 510642;3.华南农业大学测试中心,广东广州 510642;4.无限极(中国)有限公司,广东江门 529156)
刘宇佳1,贺丽苹2,3,*,张泳2,吕雪娟3,曹庸2,高新开4
(1.华南农业大学应用化学系,广东广州 510642;2.华南农业大学食品学院,广东广州 510642;3.华南农业大学测试中心,广东广州 510642;4.无限极(中国)有限公司,广东江门 529156)
研究通过近红外光谱技术(NIRS)结合人工神经网络技术(ANN)识别银耳的不同产地。实验以四川省与福建省两个产地共120组银耳样品为研究对象,对其进行近红外光谱测定,计算光谱吸收值的平均偏差与一阶导数进而选取有效数据,结合主成分分析方法将原始数据降维并采用反向人工神经网络技术构建近红外分析模型。结果显示,通过对有效数据主成分分析,前3个主成分的累计方差贡献率达到100%,判断准确率为88.3%;进一步采用人工神经网络优化模型,在输出层为2隐藏层为11时,判断准确率达100%;此时校正集与预测集的均方根误差分别为3.05×10-2与2.90×10-2,模型具有良好的泛化能力。因此,结合人工神经网络的近红外光谱检测技术,优化检测模型,能够准确、快速地识别银耳产地,为食品原材料的质量控制及地理标志的建立提供科学依据。
银耳,产地识别,近红外光谱,人工神经网络
银耳(Tremellafuciformis)又被称作白木耳、雪耳等,属于真菌类银耳科银耳属,有“菌中之冠”的美称。银耳作为一种珍贵的食用菌,具有益气清肠、滋阴润肺等功效;现代研究也表明,银耳所含银耳多糖具有抗癌[1],抗氧化[2]以及抗炎[3]等多种生理活性,是良好的功能性食品。银耳是我国特产,尤以四川和福建为两个主要产地。四川通江地区所产银耳为上品,在我国古代属于名贵补品[4];福建古田县是我国银耳的主要产地,占全国总产量的80%,“古田银耳”已被国家质检总局批准为国家原产地域保护产品[5]。作为银耳生产和出口大国,银耳标签的产地标注更应引起重视。目前,对银耳产地的判别除依赖感官评定之外,缺乏有效、准确、统一的识别方法。
不同产地来源的食品,因自然环境、加工方式、生产原料等不同,导致食品中主要有机物成分存在差异,通过采集近红外光谱中所蕴含的独特信息可用于产地溯源[6-7]。产地溯源有助于食品原材料的品质保证与安全监管,是食品安全领域的一个重要环节。人工神经网络是一种模拟人脑功能的非线性信息处理系统[8],目前广泛应用于食品领域工艺条件优化[9]与目标结果预测[10]。因其具有良好的非线性映射逼近能力和预测能力,在产地溯源方面也取得了良好的效果[11-14],但该技术用于真菌类农产品银耳的产地鉴别尚未见相关报道。本研究通过选取四川和福建两种产地的银耳,基于近红外光谱分析,结合数据降维构建人工神经网络鉴别模型并优化模型隐藏层与输出层数量。旨在探索与建立一种快速高效的模型建立方法与银耳产地识别方法,为食品原材料的质量控制以及地理标志的建立提供参考。
1.1材料与仪器
银耳样品共分10个批次分别采集于四川省与福建省,共采集银耳样品120组,其中四川产61组,福建产59组,编号与采收时间如表1所示。银耳样品除去根部附带培养基杂质,去离子水冲洗干净,自然晾干后粉碎备用,样品粒度控制在20~40目之间。
表1 银耳样品分类编号与基本信息Table 1 The basic information and number of tremella samples
1.2近红外光谱测定
25 ℃环境下,用VERTEX 70傅里叶变换近红外光谱仪(德国BRUKER公司)采集和保存光谱。光谱采集条件:采用积分球漫反射方式,扫描范围4000~10000 cm-1,分辨率8 cm-1,增益2,扫描次数64次。
1.3数据处理
通过计算平均偏差以及一阶求导的方法选取有效特征数据。平均偏差是各单次测量偏差的绝对值之和与测量次数之比,代表一组测量值中任意数值的总体偏离程度,用公式(1)表示:
式(1)
一阶求导采用Origin 9.0中的Differentiate分析模块进行计算。
评价构建的模型主要考察准确率与泛化能力:准确率表示模型预测结果的准确程度,用公式(2)表示;泛化能力通过对比校正集与预测集的均方根误差(RMSE),用公式(3)表示:
准确率(%)=(正确预测样品数量/总样品数量)×100
式(2)
式(3)
1.4分析软件
使用Office Excel 2013进行数据整理与平均偏差、均方根误差计算;Origin 9.0进行数据一阶求导处理;SPSS 17.0统计软件因子分析模块对数据进行主成分分析;MATLAB R2010B中BP-ANN工具箱进行判别分类。
2.1有效数据选取
两种产地银耳样品的原始近红外光谱有效数据预处理方法如图1所示。图1a的横坐标为波数范围 4000~10000 cm-1,纵坐标为光谱吸光度值。从图1a可以发现,所有的银耳样品光谱差异不明显,分布趋势相近,无法直观的根据光谱数据判别银耳的主要差别信息,必须借助一定的光谱预处理及化学计量学及数学模型才能实现不同产地的识别。通过对光谱进行矩阵数据化,可以得到1555×120个数据,该矩阵共包含约18.6万个庞大数据。数据预处理方法主要包括降噪平滑、基线矫正、多元散射矫正等,这些方法通过对所有数据进行处理,使原始数据具备更高的精确度,但是没有降低数据维度,仍然具有大量的无效数据,对于日益庞大的数据来源与数据总量,逐渐表现出局限性。因此,需要采取一种高效数据预处理方法,提取有效数据,提高有效信息量。本研究通过计算平均偏差,以及一阶导数的方法,找出差异性最大的波数范围作为主要的特征分析数据。
图1 原始光谱中有效数据选取Fig.1 Sellecting the useful data from initial NIR spectrum注:a.120组银耳样品近红外原始光谱;b.平均偏差计算结果; c.平均偏差一阶求导计算结果;d.原始数据中有效数据波数选取范围。
图1b为120组光谱的平均偏差结果,可以发现在波数5000 cm-1及7000 cm-1处出现波峰,表示在这个波数周围光谱具有较大的差异性,为了进一步得到具体的有效数据所在的波数范围,对平均偏差结果进行一阶求导,结果如图1c所示。从图1c可以直观的发现在4933、5298 cm-1及7144 cm-1处都有明显的波峰,选取一阶导数在0.0001范围外的波数,由此得出原始光谱中存在差异以及波动最大的波数范围:分别为5183~5434、4786~5091 cm-1以及6971~7301 cm-1三个波数范围内共232组数据作为有效数据(如图1d所示),以这些光谱数据组成一个232×120矩阵,进行下一步模型的建立。
2.2主成分分析
主成分分析是一种有效的数据挖掘手段,可将庞大的数据进行优化。对数据预处理所得的光谱数据(232×120矩阵)通过主成分分析,发现前3个主成分累计方差贡献率即达到100%(表2),说明运用主成分分析可以有效的表达原始数据的特征。其中,第1主成分与第2主成分贡献率分别为50.929%与49.067%,第3主成分贡献率仅为0.003%,为了将优化后各特征信息直观表现出来,分别选取第1与第2主成分作图,结果如图2所示。从图2可以看出,福建产银耳主要分布在X轴的负轴部分,四川产银耳主要分布在X轴0.05右侧,有6个样品分布在X轴负轴。两种银耳样品的落点分布各自相对集中,但仍有14组样品落点离散,判断准确率为88.3%。
表2 主成分分析累计方差贡献率Table 2 The cumulative contribution of principal component analysis
图2 两种产地银耳的主成分分析Fig.2 The principal component analysis of tremella samples from Sichuan and Fujian
主成分分析是一种将多个变量通过线性变换以选出较少个数变量的一种统计分析方法,当输入数据的线性程度不高时,应用线性主成分分析方法会出现特征提取能力下降的问题。因为食品原料具有多样性的特点,表现在其近红外光谱的复杂性,很难准确得到相应的线性关系。主成分分析是一种良好的数据降维手段,但对于提取特征变量后的数据分类效果仍存在不足,所以,个别银耳样品出现了误判,鉴别准确率不够高,需要选用其他方法优化。
本研究进一步采用非线性的BP-ANN方法,利用主成分分析方法所提取的主成分作为输入向量,进一步建立更为准确、优化的鉴别模型。
2.3BP-ANN模型的建立与结果预测
选取主成分分析处理所得到前3个主成分(3×120维矩阵)为输入向量;设置“1”代表四川产银耳样品,“0”代表福建产银耳样品,作为目标向量建立BP-ANN模型;训练集数量一般选取样本总数的三分之二[11,15],本研究训练集,校正集与测试集分别按照70%,15%和15%的比例进行选取,即从120个样品中随机抽取84个样品为训练集,18个样品为校正集,18个样品为测试集,构建不同隐藏层与输出层BP-ANN模型。为了提高预测准确率与计算效率,得到最优网络结构,分别尝试输出层为1与2时,不同数量隐藏层对预测结果的影响,结果如图3所示。在输出层为1,隐藏层为15时,预测准确率首次达到100%,在达到18时,结果趋于稳定;在输出层为2,隐藏层为11时,预测准确率即达到100%,结果趋于稳定。
图3 不同隐藏层与输出层对预测准确率的影响Fig.3 The effects on forecast accuracy from different number of hidden layers and output layers
因此,选取输出层为2,隐藏层为11构建BP-ANN模型,在迭代74次后,网络输出误差为2.14×10-5,小于收敛误差界值0.0001,完成训练目标。对模型优劣的评价,主要是依据鉴别的准确率,同时比较校正集与预测集的RMSE,若两者近似相等,则说明所建立的BP-ANN模型已有效逼近训练集所蕴含的规律,能够充分的表现出样品本身所含有的性质,具有很强的逼近能力,即泛化能力很好[16]。
图4 BP-ANN模型中两种产地银耳样品的预测值分布Fig.4 The predicted results of tremella samples from Sichuan and Fujian in BP-ANN model
通过构建模型,计算结果如图4所示,所有样品获得准确区分,鉴别准确率为100%,说明所建立的模型具有良好的鉴别能力,能够对银耳产品进行有效的产地区分。图5为所有银耳样品的预测值与实际值平均方差结果,可以观察每一个样品的预测结果与真实结果的误差。从图5可以看出,除了四川产No.4银耳样品外,其他样品的平均方差绝对值都小于0.1,虽然No.4样品预测结果误差略大,但并未影响预测的准确性。训练集与预测集的RMSE分别为3.05×10-2与2.90×10-2,即测试样本的误差接近于训练样本的误差,说明建立的网络模型已有效逼近训练样本所蕴含的规律,具有很好的泛化能力。
图5 BP-ANN模型中预测值与实际值平均方差Fig.5 The average variance between predicted value and actual value in BP-ANN model
采用平均偏差与一阶导数的方法处理原始红外光谱,剔除无效信息,提取特征数据,降维得到232×120组数据作为特征数据,有效的减少计算量,提高模型效率。
基于主成分分析,对两种产地银耳进行初步判别,准确率为88.3%,存在一定的误差,鉴别准确率不理想;进一步采用BP-ANN分类工具,在输出层为2,隐藏层为11时,预测准确率为100%,鉴别结果准确,此时校正集与预测集的均方根误差分别为3.05×10-2与2.90×10-2,模型具有良好的泛化能力。
有效的特征数据选取方法,使特征向量携带更多的有利于分类的样品信息,可以有效提高模型分类速度与效率;隐藏层与输出层的正确选取,使BP-ANN模型的结构简单,能够提高分类器的准确率与泛化能力。
基于BP-ANN的近红外光谱检测技术能够快速、准确地鉴别银耳产地,可以为食品原材料的质量控制以及地理标志的建立提供科学依据。
[1]Du X,Zhang J,Lv Z,et al. Chemical modification of an acidic polysaccharide(TAPA1)from Tremella aurantialba and potential biological activities[J].Food Chemistry,2014,143(1):336-340.
[2]Zhang Z,Wang X,Zhao M,et al. Free-radical degradation by Fe2+/Vc/H2O2and antioxidant activity of polysaccharide from Tremella fuciformis[J].Carbohydrate Polymers,2014,112(11):578-582.
[3]Shi Z,Liu Y,Xu Y,et al. Tremella Polysaccharides attenuated sepsis through inhibiting abnormal CD4+CD25highregulatory T cells in mice[J].Cell Immunol,2014,288(2):60-65.
[4]颜军,郭晓强,邬晓勇,等.银耳多糖的提取及其清除自由基作用[J].成都大学学报:自然科学版,2006,25(1):35-38.
[5]黄建立,黄艳,郑宝东,等.不同干燥方式对银耳品质的影响[J].中国食品学报,2010,10(2):167-173.
[6]Xiccato G,Trocino A,Tulli F,et al. Prediction of chemical
composition and origin identification of european sea bass(Dicentrarchus labrax L.)by near infrared reflectance spectroscopy(NIRS)[J].Food Chemistry,2004,86(2):275-281.
[7]管骁,古方青,杨永健.近红外光谱技术在食品产地溯源中的应用进展[J].生物加工过程,2014,12(2):77-82.
[8]Marini F,Bucci R,Magri AL,et al. Artificial neural networks in chemometrics:History,examples and perspectives[J]. Microchemical Journal,2008,88(2):178-185.
[9]Marini F. Artificial neural networks in food stuff analyses:Trends and perspectives a review[J].Analytica Chimica Acta,2009,635(2):121-131.
[10]王晓谦,钟赛义,秦小明,等.基于神经网络平台的牡蛎肉超高压杀菌工艺条件优化[J].食品工业科技,2014,36(6):257-261.
[11]Aursand M,Standal IB,Axelson DE. High-resolution 13C nuclear magnetic resonance spectroscopy pattern recognition of fish oil capsules[J].Journal of Agricultural and Food Chemistry,2007,55(1):38-47.
[12]庞涛涛,姚建斌,杜黎明.人工神经网络分类鉴别苦丁茶红外光谱[J].光谱学与光谱分析,2007,27(7):1336-1339.
[13]王凤花,朱海龙,杨菊,等.基于近红外光谱荞麦淀粉、蛋白质和总黄酮含量测定方法研究[J].食品工业科技,2014,35(5):281-284.
[14]洪雪珍,韦真博,海铮,等.基于电子鼻和神经网络的牛肉新鲜度的检测[J].现代食品科技,2014,30(4):279-285.
[15]包刚,覃志豪,周义,等. 基于高光谱数据和RBF神经网络方法的草地叶面积指数反演[J].国土资源遥感,2012,93(2):7-11.
[16]欧文娟,孟耀勇,张小燕,等.紫外可见吸收光谱结合主成分-反向传播人工神经网络鉴别真假蜂蜜[J].分析化学,2011,39(7):1104-1108.
Model optimization of near-infrared spectroscopy and back propagation artificial neural network for identifying the geographical origin ofTremellafuciformis
LIU Yu-Jia1,HE Li-Ping2,3,*,ZHANG Yong2,LV Xue-Juan3,CAO Yong2,GAO Xin-Kai4
(1.Department of Applied Chemistry,South China Agricultural University,Guangzhou 510642,China;2.College of Food Science,South China Agricultural University,Guangzhou 510642,China;3.Instrumental Analysis & Research Center,South China Agricultural University,Guangzhou 510642,China;4.Infinitus(China)Co.,Ltd,Jiangmen 529156,China)
Near-infrared spectroscopy in combination with artificial neural network was used to identify the geographical origin oftremellafuciformis. A total of 120 samples from Sichuan province and Fujian province were studied. After being pre-treated with average deviation and first derivative,the dimension of near-infrared absorption spectroscopy data were reduced and applied to develop classification models by principal components analysis and back propagation artificial neural network. The results showed that the cumulative contribution of first three principal components was 100%,but identification accuracy was 88.3% by principal components analysis. Thus the artificial neural network was further used to optimize the structure of classification model. Under 2 output layers and 11 hidden layers,the identification accuracy reached 100%.The study demonstrated that near-infrared absorption spectroscopy based on artificial neural network can be used as an accurate and rapid technique for identification of geographical origin oftremellafuciformis. Models builded by this study can help building geographical indications and monitoring quality for raw materials of food.
Tremellafuciformis;Geographical identification;near-infrared spectroscopy;back propagation artificial neural network
2015-04-29
刘宇佳(1987-),男,在读博士,研究方向:食品化学与检测技术,E-mail:Thomas.cate@foxmail.com。
贺丽苹(1965-),女,博士,高级实验师,研究方向:天然产物化学与生物分析化学,E-mail:heliping@scau.edu.cn。
TS207.3
A
1002-0306(2016)03-0303-05
10.13386/j.issn1002-0306.2016.03.055