何欣龙, 王继芬*, 吴福璐, 李锦泽, 张 强, 陈 多
(1.中国人民公安大学刑事科学技术学院,北京 102600;2.吉林省长春市农安县公安局,吉林长春 130200; 3.中国人民公安大学信息技术与网络安全学院,北京 102600; 4.中国人民公安大学交通管理工程学院,北京 102600)
橡胶颗粒的鉴别是司法鉴定中一项重要的工作。橡胶原材料主要有生胶、硫化体系、防护体系、填充补强体系和其他添加剂,而常见的橡胶成品有轮胎、胶鞋等,它在人们生活及尖端高科技等诸多领域都得到广泛的应用[1]。在物证鉴定领域,轮胎橡胶作为一种微量物证,常见于交通肇事及其他一些诉讼案件中,因此,实现不同种类轮胎橡胶颗粒的精确识别与分类具有重要的意义,目前尚未见到较为普适的报道。
衰减全反射-傅里叶变换红外(ATR-FTIR)光谱[2]作为一种无损检验技术,其特征性高、分析速度快、样品用量少,可为一些无法用常规红外光谱测量的样品(橡胶)提供制样摄谱技术,并实现非均匀样品和不平整样品表面的微区无损测量[3],极大满足了对样本快速准确且无损检验的需求。欧阳爱国等[4]借助红外光谱对甲醇和乙醇柴油进行了鉴别和含量测定,模型误判率低于7.1%,实验结果十分理想。蔡嘉华等[5]则利用ATR-FTIR光谱结合小波和小波包变换,研究并提高了苯丙酮尿症筛查模型的性能。史令飞等[6]采用最小二乘支持向量机(LS-SVM)结合红外光谱法实现了对润滑油酸值更为准确地测定。
聚类分析和神经网络是化学计量学研究中的热门领域,其中神经网络具有强大的特征提取与抽象能力,能够整合多源信息,处理异构数据,是目前大数据分析中最成功的方法[7 - 8]。主要方法有前馈神经网络(FFNN)、径向基函数神经网络(RBF)和霍普菲尔网络(HN)等。其中,RBF可以根据具体问题确定相应的网络拓扑结构,具有自学习、自组织、自适应功能,能够以任意精度逼近任意连续函数,特别适合于解决分类问题,同时其有很快的学习收敛速度,可以进行大范围的数据融合,可以并行高速地处理数据,进而发掘数据内部难以解析的规律性[9 - 10]。本实验借助ATR-FTIR光谱,结合凝聚型层次聚类分析(CHCA)和RBF对轮胎橡胶进行建模区分,同时对相关结果进行讨论,以期为案发现场轮胎橡胶颗粒的种类鉴别提供一种新的准确研究方法。
Nicolet 5700型傅立叶变换红外光谱仪(Thermo Fisher Scientific公司);衰减全反射套件(ATR,Thermo Fisher Scientific公司,选Ge晶体作为晶体材料),扫描次数32次;光谱分辨率4 cm-1;以空气为背景进行光谱采集;光谱数据处理采用OPUS软件(德国Bruker公司),选取波数在4 000~500 cm-1段谱图,需注意避免CO2和水分对实验结果的干扰,每个样本采集3次,取平均值。
从建材市场收集75个不同品牌和生产厂家的轮胎橡胶样本。
1.2.1 建模CHCA是一种有效的分类方法,其能有效处理大数据集,应付不同的数据类型,算法的效率能满足大数据量高复杂性要求且对数据的输入顺序不敏感。RBF是一种将输入矢量扩展或者预处理到高维空间中的神经网络学习方法[9],具有局部响应特性和唯一最佳逼近点,能以任意精度逼近任一连续函数,常用于非线性系统的定量预测,快捷且准确度高[10]。它由输入层、隐含层和输出层3层构成,其中输入层是将特征向量输入神经网络,隐含层即传递函数,将低维的模式输入数据变换到高维空间内,以利于输出层进行分类识别[11],隐层的转移函数一般采用高斯函数,其形式为:
f(‖x-xc‖)=exp{-‖x-xc‖2/(2×σ)2)}
(1)
其中,x是空间中的任意一点,xc为核函数中心,‖‖是欧式范数,σ为函数的宽度参数,直接控制函数的径向作用范围。
输出层,即第j个输出点为:
(2)
其中ω为神经网络权值,i=1,2,3,…,M。
1.2.2 方法借助ATR-FTIR光谱获取样本的红外光谱数据,剔除波数在2 406~2 271 cm-1(CO2峰)的干扰数据,选择Z标准化(即ZCore标准化)预处理,消除光谱数据量纲不一致影响,选择主成分分析对样本进行降维,简化计算复杂性,筛选出具有高识别特征的变量,借助CHCA和RBF展开对特征变量的区分建模。
75个轮胎橡胶样本主成分分析的特征根方差贡献率摘要见表1。由表1可知,共提取到5个主成分,“Total”是特征根,即为主成分影响力度的指标,一般以1为标准,只需提取特征根大于1的主成分,同时满足累计方差贡献率(Cumulative%)大于85%,才能作为代表原始变量的主成分分数[12]。表中PCA1、PCA2、PCA3和PCA4的特征根分别为307.081、254.337、106.486和99.212,其值均大于1,可以作为代表原始变量的主成分分数。各成分方差贡献率分别是33.342%、27.615%、11.562%、10.772%和4.899%,累计方差贡献率为88.191%,其值大于85%,表明5个主成分可解释样本的特征信息,可作为特征变量建立分类模型。
表1 特征根方差贡献率
选择 “PCA1”、“PCA2”、“PCA3”、“PCA4”和“PCA5”为特征变量,借助CHCA分析构建模型,结果见表2。由表2可知,75个样本分为了9大类,在此基础上又分成了20小类。其中,A类共有12个样本,是玲珑品牌的轮胎橡胶;B类共有14个样本,有佳通品牌的轮胎橡胶颗粒;C类是吉路尔品牌的轮胎橡胶颗粒,D类有朝阳和新陶品牌的轮胎橡胶颗粒,E类有WANALI品牌的轮胎橡胶颗粒,F类是青岛平度豪迈轮橡胶颗粒,G类有朝阳和三角品牌的轮胎橡胶颗粒,H类有金宇品牌的轮胎橡胶颗粒,I类有Annait品牌的轮胎橡胶颗粒,J类有东风和泰发品牌的轮胎橡胶颗粒,K类是德国马牌和正新品牌的轮胎橡胶颗粒,L类是MAXXIS和玲珑品牌的轮胎橡胶颗粒,M类有DUNLOP品牌、佳通品牌、三角品牌的轮胎橡胶颗粒,N类是三角品牌的轮胎橡胶颗粒,O类是佳通品牌的轮胎橡胶颗粒,P类是韩泰品牌的轮胎橡胶颗粒,Q类是,R类是KUMHO品牌的轮胎,T类是米其林品牌的轮胎橡胶颗粒。
表2 75个样本凝聚型层次聚类分析结果
图1 特征变量重要性图Fig.1 Significance chart of characteristic variables
为检验模型的重现性和准确率,采用RBF开展验证性分析。基于综合考虑神经元个数和网络性能,以及模型准确度的目的,输入层选择PCA1、PCA2、PCA3、PCA4和PCA5为变量因子,隐含层神经元个数的确定采用递增方法,即隐含层神经元个数从零开始递增,每增加一个神经元都能最大限度的降低误差,如果未达到网络设计精度则继续增加神经元个数,直到满足精度[9]。选择随机生成种子数为229176228,防止过度拟合集合为30.0%,模型终止条件为达到精度或者达到最大神经元个数,构建RBF轮胎橡胶分类的标准模型。得到了特征变量重要性图如图1所示。图1可直观看出5个特征变量在做出分类预测时的重要程度。“特征4”为区分贡献最大的特征,其重要性达0.22,其次为“特征3”,重要性为0.21,“特征1”重要性为0.20,“特征5” 重要性为0.19,“特征2”为区分贡献最小的特征,重要性为0.18,所有特征变量的重要程度值总和为1。
表3即模型对各类别样本的预测结果。第1类中,31个样本实现了准确的归类,2个样本(1105-5和1221-15)预测错误,准确率为93.94%;第3类中,2个样本(1221-16和1221-48)预测有误;第4类中,1113-8和1130-5样本预测有误;其他几类均实现了100%的准确预测。总体预测准确率为92.0%,模型结果分类理想。
表3 RBF模型对样本的预测结果
对归属类别存在差异样本的红外谱图展开解析,结果见图2。由图2a可知,样本1221-15与第1和3类样本谱图的走向基本一致,在波数1 250~1 500 cm-1处均有三个尖峰,在波数1 000 cm-1均有一个宽峰,相比较第3类样本,1221-15与第1类样本的谱图更相近,故而仍将其归为第1类样本。由图2b可知,样本1105-5与第1和3类样本谱图的走向基本一致,在波数1 000 cm-1左右均有一个宽峰,样本1105-5与第1类样本的峰强基本一样,与第3类样本之间的区分较为分明显,故而仍将其归为第1类样本。图2c中,样本1221-16与第3类样本谱图走向基本一致,与第1类样本谱图差异明显,仍然将其归为第1类样本。图2d中,样本1221-48与第2和3类样本走向基本一致,在波数为750 cm-1左右1221-48与第3类样本均有一个尖峰,而第2类样本没有,故而将样本1221-48归为第3类。图2e中,样本1113-8和1130-5和第2类样本(1221-2和1221-47)相比较,其谱图走向不一致,出峰位置各有差异,仍将其归为单独一类。综上,75个样本的归属情况如表2所示。
图2 差异样本红外(IR)光谱图比较Fig.2 Comparison of IR spectra for samplesa.The spectra comparison of 1221-15 with 1 and 3;b.The spectra comparison of 1105-5 with 1 and 3;c.The spectra comparison of 1221-16 with 1 and 3;d.The spectra comparison of 1105-5 with 2 and 3;e.The spectra comparison of 1113-8 with 1130-5 and 2.
本实验利用红外光谱检测、凝聚型层次聚类分析和径向基函数模型对轮胎橡胶颗粒进行了准确的识别与分类,不仅实现了量少、快速和无损检验的目的,而且借助数学模型展开模式识别,实现了对轮胎橡胶颗粒更为合理和有效地鉴别。模型对各样本的总体分类准确率达92.0%,分类结果较为理想,这也为其他物证的分类识别提供了一种新的思路和参考。后期将针对性收集相关样本,同时考虑各个类别样本的内部差异,进而更深入地构建分类模型,以期实现对轮胎橡胶健全的分类研究体系,为法庭科学中轮胎橡胶物证的鉴别提供一定的参考和借鉴。