盛立哲,季仁东,2,王晓燕,2,姚华,于银山,2,魏丹丹,2,卞海溢,2*
(1 淮阴工学院电子信息工程学院,江苏 淮安,223003;2 江苏省湖泊环境遥感技术工程实验室,江苏 淮安,223003)
苹果汁凭借其高营养价值和较好的口味成为了全世界最受欢迎的果汁之一,具有广阔的消费市场。然而苹果汁的掺假导致苹果汁质量参差不齐,直接影响食品安全和国际贸易[1]。苹果汁的掺假方式主要有:1、兑水稀释;2、添加低廉的其它果汁或非果汁成分;3、考虑到不同地区产的不同品种的苹果价格差距较大,用价格低廉品质较差的苹果作为原料以次充好。前两类掺假可以通过检测苹果汁的浓度进行识别,第三类以次充好的掺假方式相对隐蔽,并不能通过简单的测定成分进行鉴别,因此急需开发一种无损快速的苹果汁产地分类检测技术,对于维护消费者合法权益,改善我国果汁产品在国际上的形象,提高苹果汁的出口具有一定的理论现实意义。
目前,各科研小组提出了多种方法来检测苹果汁的苹果品种产地。例如,Belton等人提出了利用核磁共振技术结合主成分分析法来区分苹果汁中苹果的种类[2]。通过对3个品种(Spartan、Bramley和Russet)苹果汁核磁共振谱分析,结果证明当使用五个主成分时分类准确率能达92.3%以上。Medina等人结合固相萃取和气相色谱的方法对苹果汁中的挥发性有机物与苹果品种产地之间的关系进行了研究,结果证明二氢草莓酸乙酯等一些特殊的挥发性有机物可以用来区分苹果汁的种类产地[3]。尽管这些方法的有效性都已经被证明,但是由于这些方法存在检测时间长、需要复杂的前处理和对样品有损伤等缺点,不适合在线检测。
近些年,光谱技术与化学计量学算法相结合在化学分析领域崭露头角,成为化学分析领域的一种新兴技术。考虑到光谱技术具有非接触、无损伤、速度快和灵敏度高等优点,光谱技术结合化学计量学算法的检测技术被广泛应用于刑侦[4,5]、安防检测[6,7]和食品安全[8,9]等领域。例如,朱大洲等人提出了中波近红外光谱技术结合SIM-CA法来区分苹果汁的品种产地,通过建立光谱数据与苹果品种产地的模型,模型识别率达85%以上[10]。Chang等人提出了利用紫外可见光光谱结合主成分分析法来区分苹果汁的品种产地,通过对8个品种的苹果汁的紫外可见光光谱进行主成分分析,实现了苹果汁品种的分类[11]。
支持向量机是建立在统计学习基础上的,该分类器通过选择适当的函数子集和该子集总的判别函数,利用有限的训练样本,通过平衡模型复杂性和学习能力使得分类模型的期望风险达到最小值[12]。由于SVM算法的潜在应用价值较高,成为近些年图像处理的研究热点,已被广泛应用于人脸跟踪[13]、语音识别[14]、图像分类[15]和控制系统[16]等诸多领域。
本文测量了西安和云南两个品种苹果所榨苹果汁的荧光光谱,发现两个品种的苹果汁都在394 nm、422 nm、461 nm、484 nm、531 nm和568 nm处存在荧光发射峰,并且强度不存在明显的区别。考虑到支持向量机(Support vector machines, SVM)相比于其他分类学习模型具有优秀的泛化性能、算法计算复杂度低和稀疏性好的优点,本文提出利用支持向量机算法进行苹果果汁品种的分类,建立了SVM模型,对62个建模集样品的留一交叉验证,获得了100%的正确率;对验证集32个样品的验证,获得了96.3%的正确率,从而证明了荧光光谱结合SVM算法分析技术是一种可行的苹果汁品种的分类溯源技术。
苹果汁的荧光光谱测量采用铂金埃尔默有限公司(Perkin Elmer)的LS55型荧光光谱仪。采集苹果汁荧光光谱时仪器的参数设置如下:激发波长为280 nm,发射波长范围为300~600 nm,光谱间隔为0.5 nm,狭缝宽度为5 nm,光谱扫描速度为500 nm/min。所使用的比色皿为普析光学的石英比色皿,比色皿光程为10 mm。
实验样品为2个品种的苹果,共89个苹果,其中42个苹果采购于西安,47个苹果采购于云南。所有苹果用蒸馏水洗净后去皮,然后用Nohawk的榨汁器榨成苹果汁,用过滤网过滤后,取样放置于比色皿中,利用LS55进行荧光光谱的采集。
将89个荧光光谱数据分为两类:建模集和验证集。建模集共有62个光谱组成:31个光谱来自西安的苹果样品;31个光谱来自云南的苹果样品。验证集为剩余的27个样品的光谱:11个光谱来自西安的苹果样品;16个光谱来自云南的苹果。建模前需要对荧光光谱进行归一化处理。
LS55所测得的两个品种苹果汁的平均荧光光谱如图1(a)所示,从图中可以看到不同品种的苹果汁具有相同的最强荧光峰:394 nm、422 nm、461 nm、484 nm、531 nm和568 nm,因此无法通过特异性的荧光峰进行苹果种类的区分。另外,尽管两个品种的苹果汁在422 nm处的荧光峰强度有区别,但是由于不同品种的苹果汁光谱在该位置处的光强相互重叠如图1(b)和(c)所示,422 nm处的荧光峰强度无法作为苹果种类区分的标志性参数。
图1 苹果汁的荧光光谱:(a)平均归一化荧光光谱;(b)不同苹果汁样品的荧光光谱;(c)不同苹果汁样品在390~460 nm波段的荧光光谱
具体算法流程如图2所示:1)选定2/3左右的光谱数据为建模集(两类苹果的光谱数据量为1∶1);2)对光谱数据进行归一化预处理;3)将西安的苹果标记为0,云南的苹果标记为1;4)将光谱数据与标记值作为输入在Matlab R2013b中利用SVM算法建立分类模型;4)对模型进行留一交叉验证,剔除建模集中的异常数据;5)根据交叉验证结果重新确立分类模型;6)对测试集中的光谱数据进行归一化预处理;7)将光谱数据代入模型,输出分类结果。
图2 SVM算法流程
图3是对训练集中62个数据进行留一交叉验证的结果,从图中可以看到,留一交叉验证时,前31个样品的模型输出值为0,表示横坐标为0~30的样品被模型预测为西安苹果所榨果汁;后31个样品输出值为1,表示横坐标为31~61的样品被模型预测为云南苹果所榨的果汁,预测结果与样品的实际情况吻合,模型识别准确率为100%。
图3 SVM模型训练集留一交叉验证的预测结果
为了验证模型的有效性,利用建模集所建立的SVM模型对验证集中的27个样品进行了预测,预测结果如图4所示,前11个西安苹果所榨的果汁样品中只有5号样品被模型误诊为云南苹果所榨的苹果汁样品,后16个云南苹果所榨的果汁样品都被模型预测正确。验证集的模型识别准确率为96.3%。
图4 SVM模型验证集模型的预测结果
图5 接受者操作特性曲线(ROC)
本文提出了一种利用荧光光谱与SVM相结合的方法进行苹果汁的品种分类技术。本文采集了西安和云南两种苹果果汁的荧光光谱,建立了荧光光谱-果汁品种的SVM模型。该模型对建模集数据的交叉验证准确率达100%,对验证集数据的预测准确率达96.3%。综合建模集和验证集数据获得了该模型的ROC曲线,该曲线的AUC达0.988,说明试验准确性高。该结果证明了荧光光谱技术是一种可行的果汁品种溯源技术,在食品安全领域具有重要的应用前景。