基于两步聚类和RBFNN的运动鞋底材料红外光谱鉴别研究

2022-10-09 06:10姜红付钧泽杨俊
皮革科学与工程 2022年5期
关键词:鞋底光谱红外

姜红,付钧泽,杨俊

(中国人民公安大学,北京 100038)

1 引言

随着科技的进步和发展,鞋的种类越来越多。对于不同的场合人们会选择不同种类的鞋,而运动鞋是日常通勤和休闲运动时首选的鞋。在各类案件现场中经常会提取到运动鞋鞋底物证,通过鉴别鞋底物证可以判断购买的人群,缩小侦查范围[1]。常见的鞋底材料主要是聚氯乙烯(PVC)、聚氨酯(PU)、顺丁橡胶(BR)和乙烯-乙酸乙烯酯共聚物(EVA),BR的弹性高并具有较高的耐磨性,EVA弹性高且缓冲性能良好,PU是可降解材料,不会污染环境[2]。目前对于运动鞋底的研究主要集中在物理性能和制造工艺等方面,对鞋底材料鉴别的研究相对较少[3-5]。在法庭科学中,姜红等人[6]利用能量色散型X射线荧光光谱仪对橡胶鞋底样品无机元素进行了定性和半定量分析,务瑞杰等人[7]利用扫描电镜观察塑料拖鞋表面形貌,X射线能谱仪检测样品所含元素的种类及含量,张进等人[8]利用差分拉曼光谱法对40个不同品牌和不同系列的白色运动鞋鞋底样品进行了研究。张景顺[9]利用手持式X射线荧光光谱仪(XRF)检验了30个鞋底样品,获取鞋底材料中无机填料的元素含量信息。物证的快速、准确、无损检验一直是法庭科学研究的重点,傅立叶变换红外光谱法是通过对干涉图进行傅立叶变换测定样品的红外光谱。和色散型红外光谱法相比具有扫描速度快,信噪比和分辨率高等优点,是目前检验有机物和分子结构效果最好的分析方法之一[10-12]。

利用化学计量学和RBFNN模型对45个运动鞋底样品的红外光谱分析鉴别和精确分类。实践中常用方法为通过比较样品和标准物的红外吸收峰的峰面积或者峰高比确定样品成分,但仪器的系统误差等原因,可能会导致其他重要的光谱信息被忽略。RBFNN是唯一可以克服局部极小值问题的前馈型神经网络,并且具有训练简单、收敛速度快等优点[13]。化学计量学可处理大量的红外光谱数据,因此提高了RBFNN神经网络的应用价值,特别是对于多变量的数据处理。运动鞋底材料属于混合物,是多维尺度样品,不同品牌的样品在组分上会存在不同,即样品的变量特征不同,借助化学计量学可对变量特征的差异性进行综合考量。本实验通过两步聚类对样品分组后的结果作为参照构建RBF神经网络,训练出置信度较高的神经网络模型,可对未知运动鞋底物证样品建模进行区分鉴别,为法庭科学中运动鞋底物证的快速无损鉴别提供了新思路。

2 实验部分

2.1 实验样品

不同品牌的运动鞋底样品45个(样品表略)。

2.2 仪器及条件

傅立叶变换红外光谱仪Nicolet6700(美国赛默飞世尔公司),Performer采样器,扫描范围为4000~400 cm-1,扫描次数为64次,分辨率为4 cm-1。

2.3 实验数据采集

剪取面积约为0.2 cm×0.2 cm的样品,用无水乙醇棉签擦拭、晾干,置于Performer采样器上,调节旋紧探头,采集样谱图。随机选取10#样品,进行5次重复性实验,验证该方法的重现性。

3 结果与讨论

3.1 重现性实验分析

在同一条件下对10#样品的5次检验取得了较好的效果,5次实验的峰数、峰位和峰强基本一致,证明该方法的重现性较好,可以用来检验运动鞋底物证。样品红外光谱图,见图1。

图1 10#样品重现性结果Fig.1 Reproducibility test results of infrared spectrum for sample 10#

3.2 组成成分的红外光谱分析

通过对鞋底样品的红外光谱图进行解析,运动鞋底材料的主要成分为EVA、PU、PVC和BR四种,45个样品分可分为四类(见表1)。EVA是一种乙烯共聚物,可提高材料的缓冲性和抗震性,以15#样品为例(见图2)。PU是多元异氰酸酯与聚酯型多元醇或聚醚型多元醇反应制得,以27#样品为例(见图3)。PVC是氯乙烯经过游离基聚合得到的高聚物,以4#样品为例(见图4)。BR是1,3-丁二烯聚合而成的一种橡胶,以2#样品为例(见图5)。共有28个样品是BR,其他三类样品数小于10,可以通过比较红外吸收峰的峰位以及相对峰高比可以进行区分。对于样品最多的第Ⅳ类样品,需要引入化学计量学和RBFNN建立鉴别模型。

图2 15#样品红外光谱图Fig.2 Infrared spectrum of sample 15#

图3 27#样品红外光谱图Fig.3 Infrared spectrum of sample 27#

图4 4#样品红外光谱图Fig.4 Infrared spectrum of sample 4#

图5 2#样品红外光谱图Fig.5 Infrared spectrum of sample 2#

表1 样品分类表Tab.1 Classification results of samples

3.3 样品红外数据降维

主成分分析(PCA)是一种多变量统计方法,在化学计量学中常用于多维数据的降维[14],经处理后,原始数据降为16维,特征值均大于1[15],累计贡献率达到了99.739%。主成分方差贡献率见表2。

表2 解释的总方差Tab.2 Total variances explaine

3.4 两步聚类分析

两步聚类法(Two-Step Cluster Analysis)是一种执行探索性功能分析的算法[16],可以显示复杂数据背后的分组和分类。将3.3降维提取的16个主成分作为研究对象,聚类结果显示第Ⅳ类样品可聚为3组,聚类的效果达到了较好的水平(见图6),聚类结果见表3。

表3 样品聚类结果表Tab.3 Clustering results of samples

图6 两步聚类质量Fig.6 Two-step clustering quality

3.5 Fisher判别分析

判别分析是一种监督的统计分析方法。依据类间距离最大和类内距离最小的原则计算判别函数建立判别模型,依据计算所得的判别函数对样品种类进行判别[17],可将判别分析用来检验3.4中两步聚类的聚类结果。将3.4中两步聚类的结果作为分组变量,降维后提取的16个主成分作为自变量,计算基于两步聚类结果的Fisher判别式。根据Fisher判别函数计算样品得分并将其划入得分最高的组别[18]。三个组别Wilk的Lambda检验判别结果见表4,建立的两个判别函数的特征值见表5。

表4 Wilk的Lambda检验Tab.4 Wilk’s Lambda results

表5 判别函数特征值Tab.5 Eigenvalues of discriminant functions

表4显示在判别分析过程中共建立了两个Fisher判别函数,函数1和函数2的显著性水平都为0,小于阈值0.05,证明这两个判别函数判别效果显著。由表5可知,函数1的方差百分比为63.5%,函数2的方差百分比为36.5%。方差百分比可以解释判别函数反映的方差变异程度的大小,函数1所能解释信息的能力大于函数2。函数1的特征值为21.284,函数2的特征值为12.257,说明函数1对于判别的贡献度高。故将样品在函数1上的得分作为主要判别依据。将函数1和函数2作为判别轴建立联合分布图,结果见图7。

图7显示三组样品在函数1和函数2组成的联合分布图上区分效果显著。样品在空间中很好地被分为三组,同一组的样品均落在了同一区域,对于在起主要判别作用的函数1上,三组样品区分显著。通过Fisher判别分析验证了3.4中两步聚类的准确性,以聚类结果作为指标的判别模型在联合分布图上将样品均回判到各自组别中。

图7 判别函数联合分布图Fig.7 Joint distribution of discriminant functions

3.6 RBF神经网络建模

RBF神经网络的非线性拟合能力很强,规则简单、拓扑结构紧凑,收敛速度快,具有较强的自学习能力等优点,被广泛应用于模式识别和图像处理等领域。RBF神经网络由3层网络组成,分别是输入层、隐含层和输出层[19]。RBF神经网络的结构如图8所示。

图8 RBF神经网络示意图Fig.8 Schematic diagram of RBF neural network

常用的RBF函数使用欧氏距离和高斯函数,表示为:

其中xp=(x1p,x2p,…,xmp)T是第p个输入的样品,ci是隐含层的节点中心,是欧氏距离,σ是高斯函数的方差。RBF神经网络最终表达式为:

其中wij是RBF神经网络中隐含层到输出层的连接权重,i是隐含层的节点数,j代表输出层的节点,yj为神经网络中第j个输出节点的输出值[20]。

将第Ⅳ类的28个样品分成训练集和验证集,借助随机数发生器随机把样品分为两部分,这样可以尽量避免人为选择样品带来的偶然误差,增加网络模型的科学性。最终选取了78.6%的样品为训练集,21.4%的样品为测试集,输入层神经元为16,输出层神经元为3,隐含层选择为10,设定训练次数为3000次,误差率小于0.001%。权重值是输入层的红外光谱降维后的16个主成分训练后得出的[21]。RBF神经网络结构图见图9,绘制的操作特性曲线(Receiver Operating Characteristic,ROC)曲线如图10(RBF神经网络质量见表6)。

图9 RBF神经网络结构图Fig.9 Structure diagram of RBF neural network

图10 模型ROC曲线Fig.10 Model ROC curve

ROC曲线是模型的工作特征曲线,是反映敏感度和特异度之间关系的综合指标。以模型真阳性率(敏感度)为纵轴,假阳性率(1-特异度)为横轴作图,即得到ROC曲线。评价ROC曲线的指标是线下面积(area under ROC curve,AUC),AUC越大则代表分类效果越好[22]。图10可以看出第一组样品AUC值为0.995,第二组样品AUC值为0.994,第三组样品AUC值为1,一般认为当AUC大于0.9可认为是准确度较高的诊断实验,误诊率和漏诊率均很低。表6可知,22个样品作为测试集,6个样品作为训练集,训练集为100%,训练集的预测正确率为83.3%,测试结果证明可在已知样品组别的基础上,构建对未知运动鞋底样品的RBF神经网络模型,实现对于未知样品的精确归类。

表6 RBFNN模型训练结果Tab.6 Training results of RBFNN model

4 结论

本实验采集了45个不同品牌的运动鞋底样品的红外光谱,建立了RBF神经网络对未知样品预判的模型。结果显示,训练集的正确率达到了100%,预测集的正确率均达到了83.3%,ROC曲线显示说明该模型的分组效果较好。可用来对案件现场提取的未知运动鞋底物证无损鉴别分类。但由于实验条件限制,全部样本量只有45个,对于机器学习样本较少,在接下来的研究中将进一步增加样品数量和种类,完善模型相关参数等工作。

猜你喜欢
鞋底光谱红外
基于三维Saab变换的高光谱图像压缩方法
煤炭矿区耕地土壤有机质无人机高光谱遥感估测
网红外卖
基于3D-CNN的高光谱遥感图像分类算法
“资源一号”02卫星可见近红外相机、宽幅红外相机在轨顺利开机成像
闪亮的中国红外『芯』
画与理
汤定元:中国红外事业奠基人
“鞋底垫厚点,也能走得快”——贫困户崔普选和他的“梦中梦”
鞋底防滑