韩林杰,姜红,田陆川,赵静远,刘业林,牛奕,张永强
基于神经网络的塑料打包带高光谱模式识别
韩林杰1,姜红2*,田陆川1,赵静远3,刘业林3,牛奕3,张永强3
(1.中国人民公安大学 侦查学院,北京 100038;2.甘肃警察职业学院 刑事侦查系,兰州 730046; 3.江苏双利合谱科技有限公司,江苏 无锡 214000)
建立一种快速、准确、无损的塑料打包带的检验及分类方法。利用高光谱在波长为350~990 nm的条件下采集52个不同来源的塑料打包带样品的高光谱数据,并对样品进行Savitzky-Golay平滑处理,同时结合主成分分析对样品进行降维。将提取到的主成分进行-Means聚类,以聚类结果为依据建立径向基函数神经网络(RBFNN)与BP神经网络模型(BPNN)。打包带样品的高光谱谱图在400~500 nm、600~700 nm处有较大区别。实验共提取了5个初始特征值大于1的主成分,可以解释96.633%的原始数据。通过-means聚类将塑料打包带样品分为6类,Calinski-Harabasz指数为28.76,RBFNN分类准确率为86.7%;BPNN分类准确率为98.1%,BPNN的分类效果更好。研究表明神经网络在高光谱谱图分类处理上具有较高的准确度,同时也验证了高光谱在区分检验塑料打包带类物证的可行性与科学性,为公安机关提供了一种新的检验方法。
高光谱;塑料打包带;神经网络;模式识别
塑料打包带在各类案件现场中较为常见,因其具有质轻、耐磨、耐腐蚀等优势,犯罪分子在包装、运输凶器等过程中经常使用塑料打包带[1]。因此,系统地分析塑料打包带样品可以为侦查人员提供线索,为缩短侦查时间、缩小侦查范围提供帮助。
塑料打包带常用聚氯乙烯(Polyvinyl Chloride,PVC)、聚乙烯(Polyethylene,PE)、聚丙烯(Polypropylene,PP)、聚对苯二甲酸乙二醇酯(Polyethylene Glycol Terephthalate,PET)作为主要成分[2],其中以PP和PET最为常见。为降低成本、改善性能,生产厂家常在生产过程中加入重质碳酸钙、滑石粉、高岭土、钙粉等填料和白油(液体石蜡)、石蜡、邻苯二甲酸二辛酯、低相对分子质量聚乙烯(聚乙烯蜡)及硬脂酸等助剂。
目前法庭科学领域检测塑料打包带类物证的方法有:红外光谱法、拉曼光谱法[3]、X射线荧光光谱法、差示扫描量热法[4]、扫描电镜能谱法等。高光谱成像技术融合了图像技术与光谱信息技术,既可以获得目标的二维位置信息又可以获得一维的光谱信息,在光谱分辨率与波段范围上有更好的表现。作为一种新兴、无损、准确的分析方法,高光谱成像技术已在食品安全[5],医学研究[6],航空航天[7]等领域有广泛应用,近些年也在血迹检验[8-9]、文件检验[10-11]、生物物证[12]等领域有所进展。在塑料打包带生产过程中,由于主要成分与填料的不同,塑料打包带在高光谱谱图中会存在一定的差异,这为后续分析检验塑料打包带样品提供了科学依据。
以往检验塑料打包带的文献通常用谱图峰值与标准特征峰对比或元素含量对比的方法对其进行分类,如《拉曼光谱法检验塑料打包带(绳)的研究》[3]《红外光谱结合X射线光光谱检验塑料打包带(绳)的研究》[1]这2篇文章,没有使用化学计量学加以分析;而在《X射线荧光光谱结合多元统计分析塑料打包带(绳)》[2]一文中,作者使用了Fisher判别,但相关系数为0.993,没有达到100%的正确率。本实验在上述方法的基础上进行创新升级,将高光谱与神经网络相结合对塑料打包带进行分类。
主要实验仪器:GaiaFiled Pro-V10E(江苏双利合谱);测试方式为5×5排列,从上到下依次扫描。
主要实验条件:光源为卤素灯;波长为400~1 000 nm,分辨率为1 936×1 456,CPU为Intel(R) Core(TM) i5-10400 CPU @ 2.90 GHz,RAM为16 G,硬盘为256 G。
不同品牌、不同来源、不同规格的样品共52个(样品表略)。将每个样品剪成长约1 cm,用酒精擦拭干净,晾干待测。
首先将样品按长度为1 cm进行裁剪,再用酒精棉球擦拭,在环境光背景下对样品进行扫描测试。采用ENVI5.3光谱图像处理软件处理高光谱图像,采集不同特征点的光谱曲线,再利用Savitzky-Golay平滑处理提取得到光谱图。
1.4.1 主成分分析法(PCA)
主成分分析(PCA)是最常用的线性降维方法,它通过投影的方式将高维的数据映射到低维的空间中,同时希望提取的主成分可以最大地表示原始数据。当数据量庞大且各项数据可能存在线性重叠的情况下,需要对数据降维再进行处理。在主成分分析的过程中,当主成分和累计方差百分比过低时,主成分不足以解释原始光谱数据,因此一般要求提取的主成分特征值大于1且累计方差率高于85%。
1.4.2-means聚类分析
-means算法是经典的无监督聚类算法之一,其原理是在给定个初始类簇中心点的情况下,把每个样本点分到距离最近的簇中心点所代表的簇中,最终对划分工作完成后的数据进行迭代运算,从而获得一个最优的聚类结果。样本点与簇中心点的距离计算方法采用欧氏距离,具体表达式如式(1)所示。其中,X表示第个对象;C表示第个聚类中心;X表示第个对象的第个属性;C表示第个聚类中心的第个属性。
1.4.3 径向基函数神经网络
径向基函数神经网络(RBFNN)是三层前反馈神经网络,其包括输入层、隐层、输出层。当RBF的中心点确定以后,可以确定输入矢量到隐层及隐层到输出层的映射关系,输入层到隐藏层的神经元之间的权重全部为1。隐层是使用径向基函数作为激活函数的神经元,其作用是把向量从低维度映射到高维度,使得低维度不可分的情况到高纬度变得可分。RBFNN可以处理系统内难以解析的规律性,具有良好的泛化能力,并有很快的学习收敛速度,是一种局部逼近网络[13-14]。
1.4.4 BP神经网络
BP神经网络(BPNN)是一种多层前反馈神经网络。其基本思想是梯度下降法,类似于人类的神经元。输入层接收数据,输出层输出数据,前一层神经元连接到下一层神经元,收集上一层神经元传递来的信息,经过“激活”把值传递给下一层,利用梯度搜索技术,使网络的实际输出值和期望输出值的误差均方差为最小。与RBFNN不同的是,BPNN的隐节点采用输入模式与权值向量的内积作为激活函数的自变量。此外,各参数(权值、阈值)对网络输出的影响力相同,且对任何输出都有影响,是一种全局逼近网络[15-17]。
实验具体流程如图1所示。
样品的原始光谱图如图2所示。由图2可以发现,样品在波长为400~500 nm,600~700 nm处有显著差异,说明样品的主要成分有所区别。为了更好地增强审视效果,运用Savitzky-Golay算法对光谱数据进行平滑处理,减少噪声干扰,在保留谱图原始信息的同时可以避免数据冗杂,降低神经网络模型的分类准确度与训练效率。平滑处理的部分结果如图3所示。
图1 实验流程
图2 全部样品高光谱的谱图
图3 8#样品平滑处理的前后对比
高光谱图像因携带有大量的数据信息增强了其检测能力,但冗余的数据也增加了其分类难度。对光谱图像进行降维处理的目的在于提取主要特征的同时减少数据信息量,降低处理信息的时长与难度,同时增强数据分析的精确度。
本文对52个样品进行主成分分析,共提取了5个主成分,其主成分分析结果见表1。由表1可以发现,样品的累计方差贡献率为96.633%,降维效果较好。
表1 样品的主成分分析结果摘要
Tab.1 Summary of principal component analysis results
为了使聚类效果最好,本文将降维得到的5个主成分作为新的变量带入分析,采用Calinski-Harabasz准则判断最佳值。CH指数的本质是簇间距离与簇内距离的比值,由于整体计算方式类似于方差计算,又被称为方差比准则。CH值越大,代表内部协方差越小,类别之间协方差越大,可以说明聚类效果更好[18]。为避免值设置过大导致原属于同组的样品被细分,使聚类结果缺乏解释性,本文设置值范围为2~8,得到塑料打包带样品不同值对应的CH指数,如图4所示。可以发现,当聚类数为6时,样品的CH值最大,聚类效果最好,由此设定值为6。
图4 不同K值下的Calinski-Harabasz指数
2.4.1 径向基函数神经网络
以-Means聚类结果为依据,本次实验按照8∶2的比例随机分配径向基函数神经网络的训练集与测试集,其中输入向量为提取到的5个主成分,隐藏层激活函数为Softmax,输出层向量为-Means聚类结果,具体的分类结果如表2所示。由表2可以发现,径向基函数神经网络(RBFNN)对样品的分类准确率为86.7%,准确率偏低。
表2 RBFNN的分类结果
Tab.2 Classification result of RBFNN
2.4.2 BP神经网络
同样以-Means聚类结果为依据,实验按照8∶1∶1的比例随机选择BPNN的训练集、测试集与验证集,采用交叉熵作为损失函数,训练算法为量化共轭梯度法进行训练,其结果如图5、图6所示。当采用交叉熵作为损失函数时,交叉熵越低,就证明模型的策略越接近最优策略,在迭代数为40时,BPNN的交叉熵最低,模型训练完成,其具体训练过程如图5所示。样品的混淆矩阵(见图6)表明样品的准确率为98.1%,结合ROC曲线(见图7)可以看出,该训练模型适合对塑料打包带进行分类。选择部分样品作为测试集测试训练模型的分类正确率,得到的测试集混淆矩阵(见图8)表明,该模型对塑料打包带分类的正确率为100%。
图5 BPNN的训练过程
图6 样品分类混淆矩阵
BPNN属于全局逼近网络,具有较强的泛化能力、容错能力和高度的自适应能力,可以逼近任意的非线性关系。BPNN的优点在于能够通过学习自动提取并输出数据间的“合理规则”,并自适应地将学习内容记忆于网络的权值中,适合时可以将学习成果应用于新知识,并且BPNN在局部的或者部分的神经元受到破坏后仍然能正常工作。相较于RBFNN,BPNN在解决具有相同精度要求问题时的结构要更加简单,运算大量样本时能有效减少运算量。在实验得到低维数据的情况下,采用BPNN更为合适。经过验证,BPNN检验样品的准确率更高。综上所述,BPNN可以较好地对塑料打包带进行分类。
图7 样品ROC曲线
图8 测试集混淆矩阵
注:NaN%表示非确定数值或数值无法被计算。
本实验利用高光谱技术对52个塑料打包带进行了检验,并将样品谱图进行Savitzky-Golay平滑处理。样品在400~500 nm、600~700 nm的谱图差异,可以作为样品分类的主要依据。采用主成分分析法对样品进行降维,将提取到的5个主成分进行-Means聚类,比较不同值对应的CH指数,选择最大值,确认最佳聚类数为6,以聚类结果为依据建立径向基函数神经网络(RBFNN)与BP神经网络模型(BPNN)。其中,BPNN分类准确率为98.1%,选择部分样品对模型进行测试,得到测试集的分类正确率为100%,可以较好地对塑料打包带进行分类。
当今,将神经网络应用于高光谱图像检测与分类已有不少研究成果见诸报道,但用于公安刑侦中塑料打包带类物证的检测,属于应用创新,具有较好的应用价值。本文验证了高光谱在区分检验塑料打包带类物证的可行性与科学性,该方法操作简便,无损样品,可以为公安检测工作提供新手段。
[1] 马枭, 姜红, 杨佳琦. 红外光谱结合X射线荧光光谱检验塑料打包带(绳)的研究[J]. 化学研究与应用, 2019, 31(9): 1643-1648.
MA X, JIANG H, YANG J Q. Research on Inspecting the Plastic Pack Belts(Ropes)by Infrared Spectrometry Combined with X-Ray Fluorescence Spectrometry[J]. Chemical Research and Application, 2019, 31(9): 1643-1648.
[2] 马枭, 姜红, 杨佳琦. X射线荧光光谱结合多元统计分析塑料打包带(绳)[J]. 激光与光电子学进展, 2019, 56(22): 243-247.
MA X, JIANG H, YANG J Q. Examination of Plastic Pack Belts (Ropes) via X-Ray Fluorescence Spectrometry Combined with Multivariate Statistical Analysis[J]. Laser & Optoelectronics Progress, 2019, 56(22): 243-247.
[3] 马枭, 姜红, 杨佳琦, 等. 拉曼光谱法检验塑料打包带(绳)的研究[J]. 上海塑料, 2018(4): 29-35.
MA X, JIANG H, YANG J Q, et al. Research on Inspecting the Plastic Pack Belts (Ropes) by Raman Spectroscopy[J]. Shanghai Plastics, 2018(4): 29-35.
[4] 冯计民, 陶克明, 孔晓明. 差示扫描量热法(DSC)对聚乙烯、聚丙烯制品的检验[J]. 刑事技术, 1992(1): 1-5.
FENG JM, TAO K M, KONG X M. Inspection of Polyethylene and Polypropylene Products by Differential Scanning Calorimetry[J]. Criminal Technology, 1992(1):1-5.
[5] WU D, MENG L, YANG L, et al.Feasibility of Laser-Induced Breakdown Spectroscopy and Hyperspectral Imaging for Rapid Detection of Thiophanate-Methyl Residue on Mulberry[J].International Journal of Molecular Sciences, 2019, 20(8): 2017- 2017.
[6] AGGARWAL S L P, PAPAY F A. Applications of Multispectral and Hyperspectral Imaging in Dermatology[J]. Experimental Dermatology, 2022, 31(8): 1128-1135.
[7] 郝明达, 普运伟, 周家厚, 等. 一种用于预测航空遥感影像光谱信息的深度学习方法[J]. 遥感信息, 2022, 37(6): 123-129.
HAO M D, PU Y W, ZHOU J H, et al. A Deep Learning Method for Predicting Spectral Information of Aerial Remote Sensing Images[J]. Remote Sensing Information, 2022, 37(6): 123-129.
[8] 庄园, 高树辉, 谢菲, 等. 基于高光谱成像技术鉴别血痕种属的实验研究[J]. 激光与光电子学进展, 2022, 59(16): 1630001.
ZHUANG Y, GAO S H, XIE F, et al. Identifying Bloodstain Species Using Hyperspectral Imaging[J]. Laser & Optoelectronics Progress, 2022, 59(16): 1630001.
[9] 孙威, 刘怀策, 刘金坤, 等. 基于偏最小二乘法的血迹陈旧度高光谱预测研究[J]. 应用化工, 2022, 51(1): 273-276.
SUN W, LIU H C, LIU J K, et al. Age Imaging by Hyperspectral Estimation of Bloodstains Technology Based on Partial Least Squares Regression[J]. Applied Chemical Industry, 2022, 51(1): 273-276.
[10] 李云鹏, 代雪晶, 王猛, 等. 隐性字迹的快速光谱显现与高光谱分类技术研究[J]. 光谱学与光谱分析, 2021, 41(11): 3524-3531.
LI Y P, DAI X J, WANG M, et al. Study on Rapid Spectral Reappearing and Hyperspectral Classification of Invisible Writing[J]. Spectroscopy and Spectral Analysis, 2021, 41(11): 3524-3531.
[11] 张倩, 陈维娜, 郝红光. 高光谱成像技术在文件检验应用的研究综述[J]. 应用化工, 2020, 49(1): 165-170.
ZHANG Q, CHEN W N, HAO H G. A Review of Research on Hyperspectral Imaging Technology in Document Inspection Applications[J]. Applied Chemical Industry, 2020, 49(1): 165-170.
[12] PALLOCCI M, TREGLIA M, PASSALACQUA P, et al. Forensic Applications of Hyperspectral Imaging Technique: A Narrative Review[J]. The Medico-Legal Journal, 2022, 90(4): 216-220.
[13] 侯伟, 王继芬, 刘怡然. 基于机器学习的人体指甲光谱模式识别及溯源分析[J]. 激光与光电子学进展, 2022, 59(18): 463-470.
HOU W, WANG J F, LIU Y R. Spectral Pattern Recognition and Traceability Analysis of Human Fingernail Based on Machine Learning[J]. Laser & Optoelectronics Progress, 2022, 59(18): 463-470.
[14] 潘立剑, 陈蔚芳, 崔榕芳, 等. 基于激光诱导击穿光谱与径向基函数神经网络的铝合金定量分析[J]. 激光与光电子学进展, 2020, 57(19): 193002.
PAN L J, CHEN W F, CUI R F, et al. Quantitative Analysis of Aluminum Alloy Based on Laser-Induced Breakdown Spectroscopy and Radial Basis Function Neural Network[J]. Laser & Optoelectronics Progress, 2020, 57(19): 193002.
[15] 吴俊, 郭大千, 李果, 等. 基于CARS-BPNN的江西省土壤有机碳含量高光谱预测[J]. 中国农业科学, 2022, 55(19): 3738-3750.
WU J, GUO D Q, LI G, et al. Prediction of Soil Organic Carbon Content in Jiangxi Province by Vis-NIR Spectroscopy Based on the CARS-BPNN Model[J]. Scientia Agricultura Sinica, 2022, 55(19): 3738-3750.
[16] 沈飞龙. 基于机器学习与光谱信息的土壤铁氧化物估算模型研究[D].武汉: 华中农业大学, 2022.
SHEN F L. Study on Soil Iron Oxide Estimation Model Based on Machine Learning and Spectral Information[D]. Wuhan: Huazhong Agricultural University, 2022.
[17] 田安红, 付承彪, 熊黑钢, 等. BPNN对不同人为活动区域的盐渍土Na+高光谱估测[J]. 水土保持研究, 2020, 27(2): 364-369.
TIAN A H, FU C B, XIONG H G, et al. Hyperspectral Estimation of Na+ Ion in Saline Soils in Areas with Different Human Activities Using BPNN Model[J]. Research of Soil and Water Conservation, 2020, 27(2): 364-369.
[18] WANG C Y, ZHA Q. Measuring Systemic Diversity of Chinese Universities: A Clustering-Method Approach[J]. Quality & Quantity, 2018, 52(3): 1331-1347.
Hyperspectral Pattern Recognition of Plastic Packaging Tape Based on Neural Network
HAN Linjie1, JIANG Hong2*, TIAN Luchuan1, ZHAO Jingyuan3, LIU Yelin3, NIU Yi3, ZHANG Yongqiang3
(1. Investigation Institute, People's Public Security University of China, Beijing 100038, China; 2. Criminal Investigation Department, Gansu Police Vocational College, Lanzhou 730046, China; 3. Jiangsu Dualix Spectral Imaging Co., Ltd., Jiangsu Wuxi 214000, China)
The work aims to establish a fast, accurate, and non-destructive inspection and classification method for plastic packaging tapes. 52 samples of plastic packaging tape were collected from different sources through hyperspectral data in the wavelength range of 350-990 nm, and the samples were smoothed with Savitzky Golay. Principal component analysis was also used to reduce the dimensionality of the samples.-Means clustering was conducted on the extracted principal components, and a radial basis function neural network (RBFNN) and BP neural network model (BPNN) was established based on the clustering results. There were significant differences in the hyperspectral spectra of the packaged sample at 400-500 nm and 600-700 nm. A total of 5 principal components with initial feature values greater than 1 were extracted in the experiment, which could explain 96.633% of the original data. The plastic packaging tape samples were clustered into 6 categories, with a Calinski Harabasz index of 28.76 for-means and a classification accuracy of 86.7% for RBFNN. The classification accuracy of BPNN was 98.1%. BPNN had better classification performance. Research has shown that neural network has high accuracy in the classification and processing of hyperspectral spectra, and it has also verified the feasibility and scientificity of hyperspectral recognition in the detection of plastic packaging tape type evidence, providing a new inspection method for public security organs.
hyperspectral; plastic packaging tape; neural network; pattern recognition
TB487;O433.4
A
1001-3563(2024)05-0240-07
10.19554/j.cnki.1001-3563.2024.05.029
2023-05-10
国家重点研发计划项目(2019YFF0303405);食品药品安全防控山西省重点实验室基金资助(202204010931006)