王 磊,殷姣姣,余心杰
(1.太原科技大学电子信息工程学院,山西 太原 030024;2.浙江大学宁波理工学院信息科学与工程学院,浙江 宁波 315100)
三文鱼[1]也称为大西洋鲑鱼,属于硬骨鱼纲鲑形目鲑亚目鲑科的种类,是生长在加拿大、挪威和美国等高纬度地区的属于冷水性的高度洄游鱼类。三文鱼生长的温度大致范围是0℃~30℃。若生长在温度适宜的环境下,三文鱼会摄取很多的食物,生长速度很快。相反,若生长的环境不合适,三文鱼的摄食量就会大幅度地减少,从而影响其生长的速度。因为三文鱼是喜欢逆流生长的鱼类,所以多采用流水型养殖。如果生长环境的水量和水流都是在最佳状态,则可刺激三文鱼,使其保持其良好的物质代谢,促进其生长速度。研究表明,三文鱼适宜的溶氧量为6 mg/L以上,最适合的pH 范围为6.5~7.5。在养殖池中的三文鱼主要喂养含有虾青素的饲料,因此它的鱼肉中含有虾青素,所以其肉色为红色或鲜橘红色。
三文鱼中富含脑黄金(DHA)、二甲氨基乙醇(DMAE)等主要成分,可预防慢性疾病、糖尿病等疾病,还可有效减轻因风湿、牛皮癣等疾病带来的痛苦,并且还能降低血液中的胆固醇含量,因此三文鱼是世界上最有益健康的鱼类之一。此外,三文鱼的鱼肉中,胆固醇含量很低,热量低,蛋白质含量高,符合现代食品营养学标准和人们对健康鱼类的界定。
三文鱼的肉色是消费者判断其品质的重要标准,对肉色鲜红的三文鱼,要想知道其颜色,就必须将其进行宰杀并解剖。一般只通过观察鱼体本身,不能准确地辨别鱼肉的质量,所以需要一种快速无损辨别鱼肉质量的方法。因为虾青素在可近红外光下的光谱反射比较明显,因此利用近红外光谱仪对三文鱼进行照射,得到的反射光谱数据[2]对三文鱼进行肉色分级分类研究。
1)近红外光谱仪:QE65000 光谱仪由Ocean Optics 研制。光谱仪的测量区间为350~1100 nm;探测器是CCD 探测器,该探测器总共有15 个光栅,光谱采样间隔为0.81 nm,采集所用的软件是配套的Ocean Optics SpectraSuite,该软件的数据采集页面如图1 所示。
图1 软件的数据采集页面
2)光源:光源是与近红外光谱仪所对应的一个设备,该设备使用比较简便,并且耐用、经济,可测定的波长区间为300~1050 nm。
3)硬件环境:一台PC 计算机,基本配置中等即可。实验装置如图2 所示。
图2 实验装置
1)样本准备。
实验所用的三文鱼是山东省烟台市东方海洋养殖基地养殖的。挑选重量在1 kg 左右的三文鱼作为实验目标。首先,在一个装有干净海水的小养殖池里,将挑选的三文鱼进行麻醉,每次麻醉几条,然后放在暗箱上。
2)光谱数据的获取。
利用近红外光谱仪对三文鱼进行照射,照射的区域为图3 中的虚线区域,每次测量都做好标记,便于以后进行处理。利用软件把光谱数据存起来,对每条鱼的一面进行测量,图3 中虚线区域是测量范围,这样是为了避开鱼体内部和外部因素对数据采集产生干扰。最后,剖开鱼体的表面,将测量部位的肉色(如图4 所示)与SalmoFanTM比色卡(图5 所示)进行比对,并记录等级。
图3 鱼肉的照射范围
图4 对照射部位进行解剖
图5 三文鱼的鱼肉和SalmoFanTM比色卡比对
对采集三文鱼的近红外光谱数据,首先消除样本不均匀、基线漂移、高频随机噪声等影响,对采集的光谱数据进行预处理,只保留300~1 000 nm 的数据来研究,其余波段的数据都去除;然后进行基线校准,并采用平均平滑法,再进行多元散射校正(MSC),得到预处理后的光谱数据(如图6 所示);根据虾青素的反射特点,最后采用350.51~580.05 nm 范围的光谱数据来处理和分析。在实际出售中,以SalmoFanTM进行肉质鉴别,比色卡上等级24 以上的肉质是好的,所以分为2 类,等级大于24 的为第一类,等级小于24为第二类。
图6 部分样本预处理后的光谱数据
近一些年,在处理模式识别的各类问题上,稀疏表示分类算法是一种很重要的算法。稀疏表示分类算法的优点是运用残差进行数据的分类,比传统的分类算法精确了不少,也提高了分类的准确度。目前,国内外的专家运用稀疏表示分类算法对图像去噪[3]、自适应权重[4]和音乐流派与乐器分类[5]等方面进行研究,而且对稀疏表示分类器进行分类的范围越来越多。例如基于和铉识别在音乐结构和旋律方面的重要性,董丽梦利用稀疏表示分类器进行和弦识别,在识别率上高于传统的识别方法[6]。
稀疏表示分类器[7]是一种基于l1最小化范数的分类器,在模式识别的应用中已经取得了很大的成效。在特征上,稀疏表示分类器是用少量的样本数据来构成样本训练集,获得比支持向量机(Support Vector Machine,SVM)和线性分类器等分类方法更好的分类性能[8-10]。下面采用本实验数据来实现稀疏表示分类器的分类。
已知进行分类的光谱数据有80 个训练样本,训练样本数据可表示为:其中,Ai构成了i 类的向量空间,矩阵A 构成了1 种光谱数据的数据词典,矩阵的行数表示每个样本特征参数的个数,矩阵的列数表示样本的总数。
对于取自第k 类光谱数据的测试样本的向量y,可由它的训练矩阵A 所构成的空间线性表示:
在理想情况下,假设测试样本y 是来自第k 类待测样本,那么x 在其所属类别的基Ak上的投影系数不为0,而在其他训练样本基(即Ai,i≠k)上的投影为0。但实际情况是,测试样本的类别是未知的,如果所求的列向量足够稀疏,根据压缩感知理论[11-20],得到如下求解公式:
在光谱数据的获取过程中会包含噪声,那么y 就很难对A 进行准确的线性表示,因此上述表达式可改写为:
对于第i 类,定义δi是选取中一个与第i 类有关的系数向量。因此,如果判别y 为第i 类时,用=Aδi)近似y,即与y 距离越小,属于i 的可靠性越高。因此,提出识别y 所属类别的方法如下:
其中,用第i 类训练样本重建y 的残差为ri(y)。
其中L(y)表示y 的标记。
对预处理过的三文鱼(其中100 个为训练样本,每类50 个;40 个为测试样本,每类20 个)的光谱数据进行如下的操作:
1)稀疏表示算法在MATLAB2013a 下编程实现,将数据的维数最终降到100 维。
2)主成分分析算法在MATLAB2013a 下编程实现,共提取前100 个主成分。
3)基于线性判别分析的分类算法(LDA)在Matlab2013a 下编程实现。
4)基于最小二乘支持向量机算法(LS-SVM)在MATLAB2013a 下编程来实现。
光谱数据分别在主成分分析法和稀疏表示(降维方法)处理的基础上,利用基于线性判别分析分类算法进行模型建立,通过分析得出结果;光谱数据在2 种降维方法处理后,再利用基于最小二乘支持向量机分类算法进行模型建立,通过分析得出结果。
表1 实验的分类结果
从表1 中可以看出,在第一类中,不管是在LDA还是在LS-SVM 分类处理上,SR 降维处理的分类正确率都比PCA 高;在第二类中,虽然在LDA 分类处理上,SR 和PCA 降维处理后的分类正确率相同,但是在LS-SVM 分类处理上,SR 还是比PCA 降维后的分类正确率高。
因此,利用稀疏表示分类算法降维后的光谱数据进行分类的正确率比主成分分析降维后进行分类的正确率要高。因此,与主成分分析法的降维方法相比较,稀疏表示算法能有效地提取高维光谱数据中的信息,在此基础上,能更好地对三文鱼的肉质特色进行正确的分类。
本文利用稀疏表示分类算法对三文鱼的近红外光谱数据进行降维处理,再利用线性判别分析(LDA)和最小二乘支持向量机(LS-SVM)对三文鱼的肉质建立了分类预测模型。实验结果表明,利用稀疏表示算法对近红外光谱数据进行降维,能取得比传统的主成分分析法(PCA)光谱降维方法更好的分类预测结果。所以稀疏表示分类算法为近红外光谱检测中的海量数据降维提供了一种良好的新途径。
[1]罗刚.大西洋鲑鱼营养研究概况[J].畜牧与饲料科学,2009,30(5):23-25.
[2]高荣强,范世福.现代近红外光谱分析技术的原理及应用[J].分析仪器,2002(3):9-12.
[3]乔雅莉.基于稀疏表示的图像去噪算法研究[D].北京:北京交通大学,2009.
[4]段刚龙,魏龙,李妮.基于自适应权重的多重稀疏表示分类算法[J].计算机工程与应用,2014,50(8):173-177.
[5]徐星.基于最小-范数的稀疏表示音乐流派与乐器分类算法研究[D].天津:天津大学,2012.
[6]董丽梦,李锵,关欣.基于稀疏表示分类器的和弦识别研究[J].计算机工程与应用,2012,48(29):133-136.
[7]Wright J,Yang A Y,Ganesh A,et a1.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,31(2):210-227.
[8]黄敏,万相梅,朱启兵,等.基于高光谱成像技术的菜用大豆厚度检测[J].食品与生物技术学报,2012,31(11):1142-1147.
[9]蒋璐璐,骆美富,张瑜,等.汽车变速箱油的近红外光谱识别研究[J].光谱学与光谱分析,2014,34(1):64-68.
[10]Wright J,Yang A Y,Ganesh A,et a1.Robust face recognition via sparse representation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2008,31(2):210-227.
[11]杜愎刚,朱毅,朱会田.汽车自动变速器油质异常的原因及预防措施[J].润滑与封闭,2004(3):104-105,109.
[12]Suykens J A K,Gestel T Van,Brabanter J De.Least Squares Support Vector Machines [M].World Scientific Publishing Company,2002.
[13]程国首,郭俊先,石呰,等.基于高光谱成像技术的新疆红富士苹果重量预测[J].新疆农业大学学报,2011,34(3):249-252.
[14]洪添胜,乔军,Michael D Ngadi,等.基于高光谱成像技术的雪花梨品质无损检测[J].农业工程学报,2007,23(2):151-155.
[15]徐爽,何建国,易东,等.基于高光谱成像技术的长枣糖度无损检测[J].食品与机械,2012,28(6):168-170.
[16]孙玉宝.图像稀疏表示模型及其在图像处理反问题中的应用[D].南京:南京理工大学,2010.
[17]邓承志.图像稀疏表示理论及其应用研究[D].武汉:华中科技大学,2008.
[18]浦剑,张军平.基于词典学习和稀疏表示的超分辨率方法[J].模式识别与人工智能,2010,23(3):335-340.
[19]Donoho D.Compressive sensing[J].Transaction on Information Theory,2006,52(4):1289-1306.