基于高光谱图像和模式识别技术的重金属镉污染的菲律宾蛤仔检测

2021-09-09 07:36刘瑶李明王润涛
现代计算机 2021年19期
关键词:邻域波段光谱

刘瑶,李明,王润涛

(岭南师范学院信息工程学院,湛江 524048)

1 研究背景

我国是海水养殖大国,其中贝类养殖量占海水养殖总量的70%以上,是海水养殖的主要产品[1]。菲律宾蛤仔(RuditapesPhilippinarum)是沿海主要养殖的贝类之一,其富含各类氨基酸、维生素及人体必需的多种微量元素,具有较高的营养价值且味道鲜美,因此备受青睐。

随着工业的迅速发展,各种污染物直接被排放进海洋,造成海洋环境污染加剧。污染物中的重金属属于不可降解污染物,在威胁海洋生物的生长和繁殖的同时,通过食物链不断富集和传递最终危害人类身体健康。镉(Cadmium,Cd)是一种典型的易在生物体内蓄积且难代谢的有害元素,广泛存在于自然环境中。菲律宾蛤仔广泛分布于沿海滩涂等重金属污染相对严重的地区,它们作为非选择滤食性生物,在摄食过程中会将沉积物和水体中的重金属污染物积累于体内。若长期食用,对人类健康产生危害。因此,提高菲律宾蛤仔的重金属污染检测能力,保证菲律宾蛤仔的质量和食用安全已成为食品安全科学中迫切需要解决的问题。

传统的菲律宾蛤仔重金属镉污染检测方法有电感耦合等离子体质谱法、原子吸收光谱法[2]等,这些方法都能够提供较高的检测灵敏度和较准确的检测结果,但是检测时间长、操作复杂、需要对样品进行相应的处理。兼具图像处理技术和光谱分析技术优点的高光谱图像技术[3]的迅速发展为实现蛤仔重金属镉污染快速无损检测提供了技术可行性。与传统的重金属镉检测方法相比,高光谱图像检测技术的特点是无需对样品做复杂的预处理,检测是非破坏性的且操作简便快速,适于大批量检测,分析过程中不需要任何化学试剂辅助,对环境无污染。

高光谱图像技术在海产品、蔬菜、肉类、水果等农产品无损检测方面都取得了很好的成果。Huang M等人采用高光谱成像技术对不同年份的玉米种子进行分类,提高作物产量[4];Wang W等人应用高光谱检测技术监测新鲜红肉(猪肉、牛肉和羊肉)的质量和安全性[5];Luo W等人将高光谱成像与分水岭分割算法结合检测不同果皮颜色苹果早期瘀伤[6]。查阅国内外文献尚未见应用高光谱图像技术进行贝类重金属污染检测的相关研究成果,聚焦于基于高光谱图像技术的菲律宾蛤仔重金属镉污染检测的相关研究成果亦未见报道。

菲律宾蛤仔由于具有坚硬的外壳,阻挡了一些波段的光子的入射与反射,故菲律宾蛤仔重金属镉污染检测研究并不能盲目、直接、简单地移植现有的高光谱图像检测方法。本文采集受重金属镉污染的完整和开壳的菲律宾蛤仔高光谱图像,提取特征波段子集,应用模式识别技术构建检测模型。本研究丰富了重金属污染无损检测理论和方法,为菲律宾蛤仔的品质质量评价和安全检测提供一种新的方法和途径。另外,本研究成果可为养殖水域中重金属富集规律研究和海洋生态系统重金属监测研究提供技术支撑。

2 试验材料与研究方法

2.1 试验样本培养

试验用菲律宾蛤仔购于广东省湛江市寸金海鲜市场。将细砂进行消毒除杂,铺于尺寸为119 cm×108 cm×32 cm,容积为300L的塑料养殖箱中。将海水进行24小时的沉降,然后过滤,用于菲律宾蛤仔样本的实验室养殖。海水的pH值为8.0,水温为28℃,溶解氧含量为6.5mg/L,盐度为30‰。在养殖箱中加入高浓度CdC12·2.5H2O(0.8 mg L-1)溶液,模拟受重金属镉污染的海洋环境,在此养殖箱中饲养菲律宾蛤仔样本。将对照组样本饲养于不添加任何重金属元素的海水中。实验过程中,海水通过过滤泵连续曝气过滤,并与装满过滤材料的PVC盒连接。过滤器每天会关闭4小时,期间投喂小球藻。每天分别向两个养殖箱中加入含有CdC12·2.5H2O试剂的海水和单纯的海水,用于补充养殖箱中海水的损耗。将菲律宾蛤仔样本在养殖箱中培养10天,以便重金属镉累积。培养结束后,取重金属镉污染样品60份,健康(未污染)菲律宾蛤仔样品120份,进行高光谱图像采集。

2.2 高光谱图像采集

本研究中菲律宾蛤仔样本的高光谱图像数据采集使用的是美国Surface Optics公司生产的SOC710-VP高光谱成像仪。该系统由高光谱成像仪、光源单元(卤素灯)和载物平台单元[7]组成,如图1所示。该高光谱成像仪采集范围为367.7-1051.9 nm,共512个波段。整个光谱范围的最前端和最末端的光谱中包含大量噪声,故去掉这两部分光谱,保留400.5 nm到1000.9 nm的450个光谱波段。高光谱图像的采集过程在黑暗环境中进行以最大程度的减少外部光源的干扰。高光谱图像的标准定标,包括光谱定标、辐射定标和反射率归一化在SRAnal710软件中进行。图2为受到重金属镉污染的完整和开壳的菲律宾蛤仔高光谱图像。

图1 高光谱图像采集系统

(a)完整样本

(b)开壳样本

2.3 邻域粗糙集框架下的一致性特征波段选择方法

高光谱图像系统采集的高维度数据能够更全面、详细的描述研究对象,但高光谱图像波段数多,数据量大,亦给光谱分析工作带来一定的难度,故对高光谱图像进行降维处理是十分必要的。降维方法的研究,主要集中在特征提取[8]与特征选择[9]两个方向。为了去除原始波段中不重要的或者不相关的特征,本研究聚焦于高光谱特征波段选择方法,引入粗糙集理论,达到降维目的。

设菲律宾蛤仔光谱数据有m个波段,记为C={c1,c2,…,cm},有n个样本,记为U={x1,x2,…,xn},则对应的高光谱波段信息矩阵为W={wij|i=1,2,…,n;j=1,2,…,m},其中,wij为第xi个样本在第cj个波段下的光谱值;其中xi∈U,cj∈C。

基于邻域粗糙集理论[10],建立邻域决策系统,具体为:将受重金属镉污染样本和健康样本作为决策属性集D,将波段信息作为条件属性集C,条件属性和决策属性共同构成邻域决策系统NDT=〈U,C∪D,N〉。

(1)

有决策就会带来损失,所选择的决策方案和对应的状态会影响损失的大小,所以,风险损失是由决策方案和状态构成的函数,可应用损失函数来描述。

定义2:0-1错误分类损失函数定义为:

(2)

其中ω(xi)是xi的真实类别。

定义3:邻域决策误差率(Neighborhood Decision Error,NDER)定义如下:

(3)

其中,n表示样本的总量。

邻域决策误差率[11]的理论基础是多数决策原则,各样本分配决策类的依据是样本邻域内类的分布信息,然后计算重新分配的类别与实际类别之间的差异率。为了方便,称1-NDER为邻域识别率(Neighborhood Recognition Rate,NRR)。能够使得总体的损失最小的决策,即最小风险贝叶斯决策,是期望的最优决策。

定义4:给定邻域决策系统NDT=〈U,C∪D,N〉,B⊂C,a∉B,给定属性子集B,属性a相对于决策D的重要度为:

SIG(a,B,D)=NRRB∪a(D)-NRRB(D)

(4)

根据前向贪心搜索算法和邻域决策误差最小化准则选择特征波段,将得到的波段子集作为极限学习机[12](Extreme Learning Machine,ELM)的输入特征,完成重金属镉污染的菲律宾蛤仔识别任务。

2.4 ELM模型下的重金属镉污染蛤仔检测方法

在模式识别领域,作为一种新的学习框架,ELM得到了广泛的应用。与传统的神经网络相比,ELM随机选取输入层与隐含层之间的连接权重,随机选取隐含层神经元的阈值。在分类任务中,ELM算法具有泛化能力佳、快速、高效的特点。

应用ELM鉴别重金属镉污染的菲律宾蛤仔的步骤为:首先采集菲律宾蛤仔样本的高光谱数据并进行预处理,通过基于一致性准则的波段选择方法提取特征波段子集;最后利用极限学习机在光谱数据和样本种类之间建立起一一映射关系,即识别模型,进而可以预测未知样本的重金属污染情况。图3给出了利用ELM识别重金属镉污染的菲律宾蛤仔流程。

图3 ELM识别重金属镉污染的菲律宾蛤仔流程图

ELM模型训练的步骤如下:

(1)随机产生输入层与隐含层间连接权值ωi和隐含层神经元阈值b;

(2)选择隐藏层神经元个数L和激活函数g(x);

(3)计算出隐含层与输出层间的连接权值βi和隐含层输出矩阵H;

(4)计算得到输出层权重β=H-1Y。

3 实验结果及分析

3.1 菲律宾蛤仔光谱曲线分析

在菲律宾蛤仔样本的高光谱图像的中心区域应用ENVI 4.8软件提取矩形区域作为感兴趣区域,计算区域内的所有像素反射值的平均值作为该样本的光谱反射值。图4给出了受镉污染和健康的完整菲律宾蛤仔样本的光谱曲线,以及两大类的平均光谱曲线。从图4(a)中可以看出,重金属镉污染样本与健康样本的光谱曲线相似,用肉眼几乎看不出有什么明显的差别,原因是它们属于同一物种。为观察镉污染样本与健康样本的光谱差异,图4(b)给出每类的平均光谱曲线。在平均光谱曲线上可以观察到两类样本光谱具有相似的变化趋势,但光谱反射率值在整体上存在一定的差异,尤其是在800-1000 nm范围内差异比较明显。图5给出了受镉污染和健康的开壳菲律宾蛤仔样本的光谱曲线,以及两大类的平均光谱曲线。从图5(b)每类的平均光谱曲线也是能够看出两类样本光谱存在一定的差异,差异主要存在在600-900 nm之间。与完整样本的光谱不同之处在于在开壳样本的光谱曲线中健康样本的光谱反射率值高于重金属镉污染样本反射率值。

重金属污染引起的光谱差异用肉眼直接识别基本是不可能的。因此,需要采用模式识别方法与化学计量学相结合进行识别。由于采集的高光谱数据不仅包含样本信息,还包含噪声,故需要对光谱进行预处理之后再应用模式识别方法建立分类模型。已有的研究结果表明,光谱预处理能有效地提高分类模型性能[13]。本研究采用的预处理方法为多元散射校正[14](MultiplicativeScatterCorrection,MSC)。

图4 完整的菲律宾蛤仔样本的光谱曲线

图5 开壳的菲律宾蛤仔样本的光谱曲线

3.2 特征波段数量随邻域的变化情况分析

邻域δ的大小是影响邻域决策系统的一个重要参数,其直接影响特征约简的效果。因此,选择适合的邻域大小是至关重要的。本研究通过实验来研究特征波段数量以及分类准确率受邻域大小的影响情况。实验中,邻域δ的取值是0.01到0.5,步长为0.01。波段子集中的波段数量随邻域δ的变化而变化,图6给出了变化情况。可以发现,无论是对于完整的菲律宾蛤仔样本数据集,还是开壳的菲律宾蛤仔样本数据集,波段的数量随δ的增大都没有特定的单调增加或者减小的变化趋势,而是在数量2到11这个区间内波动。而且,在一些情况下,邻域δ的取值虽然不同,但是选择出的波段子集大小却是相同的。通过本研究中给出的波段选择算法,使得高光谱数据的维数从原始的450个波段降到10个波段以下,降维效果明显,达到了降维的目的。但是,若想确定最佳的邻域δ取值,仅仅通过波段数量还是远远不够的,还需要结合模式识别中的分类算法的分类效果。

图6 特征波段选择算法选出的波段数量邻域变化情况

3.3 ELM分类准确率随邻域的变化情况分析

在本实验中,共有健康菲律宾蛤仔样本60个,重金属镉污染样本60个。从两种样本构成的数据集中随机选取90个样本作为训练集,30个样本作为测试集。由于是随机选择,为了减少随机误差,每次建模都重复100次,用这100次实验结果的分类准确率的最大值和平均值评价分类效果。图7给出了对于完整的和开壳的菲律宾蛤仔样本数据集,最大分类准确率和平均分类准确率随邻域δ的变化情况。由图中可以看出,分类准确率都是随着邻域大小的变化而变化的,但并不随邻域的增大做线性变化。同时,结合图6,我们也可以注意到,准确率并不是随着波段数量的增加而增加的。例如,对于完整的菲律宾蛤仔,当邻域δ=0.05时,波段数量是4个,平均分类准确率为87.44%,而当邻域δ=0.11时,波段数量是7个,平均分类准确率仅为83.89%。对于开壳的菲律宾蛤仔样本,也同样存在这样的现象。也就是说,当波段数量增加时,分类性能不一定会提升。这表明,若想得到满意的分类效果,合理地选择邻域δ是关键。

图7 分类准确率随邻域变化情况

3.4 准确率随波段数量的变化情况分析

为了能更直观地看出分类准确率与波段数量之间的关系,我们选取波段数量为2到10这个范围,提取每种波段数量取值下分类准确率最佳的情况,给出如图8所示的分类准确率随波段数量变化情况示意图。从图中可以看出,分类准确率在整体是随着波段数量的增加而增加的,但是也存在一些特例,如对于完整的蛤仔样本,在波段数量为7个时,平均分类准确率为92.89%,当波段数量持续增大时,平均准确率反而下降,当波段数量增加至10个时,平均准确率降为90.56%。进一步表明,波段数量的增大并不一定会带来检测效果的提升。比较图8(a)和(b),可以看出,针对检测重金属镉污染蛤仔这一问题,开壳样本的检测准确率高于完整样本。对于开壳样本来说,当波段数量为8个时,平均分类准确率能达到96.89%。对于完整样本来说,最好的分类效果是平均准确率为92.89%,发生在波段数量为7个时,虽然分类效果不如开壳样本的分类效果,但准确率也在90%以上,能够达到检测重金属镉污染蛤仔的目标。

图8 分类准确率随波段数量变化情况

4 结语

重金属污染已成为一个日益严重的问题,提高对重金属污染贝类的检测能力是保障消费者安全的必要措施。本研究以菲律宾蛤仔为研究对象,应用高光谱图像和模式识别技术实现健康样本和重金属镉污染样本的鉴别检测。研究结果表明,重金属镉对菲律宾蛤仔软体的影响可以反应在光谱曲线上,在提取特征波段的基础上,应用ELM分类器可以较好地区分健康和受污染的样本。

猜你喜欢
邻域波段光谱
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
基于混合变邻域的自动化滴灌轮灌分组算法
最佳波段组合的典型地物信息提取
鲁棒多特征谱聚类的高光谱影像波段选择
郭守敬望远镜获取光谱数破千万
基于近邻稳定性的离群点检测算法
利用小波分析对岩石图像分类
浅析光谱技术在200 nm以上和以下尺度范围内的不同
对函数极值定义的探讨
邻域平均法对矢量图平滑处理