田陆川,姜红,,陈坦之,高永照,李春雷,屈音璇,刘峰
差分拉曼光谱结合XRF对塑料药瓶的多元分类研究
田陆川1a,姜红1a,1b,陈坦之1a,高永照1a,李春雷1b,屈音璇1a,刘峰2
(1.中国人民公安大学 a.侦查学院 b.食品药品与环境犯罪研究中心,北京 100038;2.南京简智仪器设备有限公司,南京 210049)
构建一种药瓶的分类及预测模型。利用差分拉曼光谱和X射线荧光光谱对54个不同品牌和产地的塑料药瓶进行分析检验。得到了54个样品的差分拉曼谱图及Cl、Ca、Ti、Fe、Zn等元素的含量。利用主成分分析对差分拉曼光谱数据进行降维,再利用系统聚类将降维后的数据分为8类,并以此为依据建立判别分析模型,最终判别模型经交叉验证可知准确率达到90.7%,多层感知器的分类准确率为100%,分类效果较好。差分拉曼光谱可以根据谱图中的特征峰推断样品的分子结构,并且可以根据峰位对样品进行分类,并建立分析模型,X射线荧光光谱可以通过各元素的种类和含量的不同对样品进行区分,实现组内的细化。差分拉曼光谱和X射线荧光光谱可以分别从有机和无机的角度对药瓶进行分类,在分析上可以优势互补,可为公安机关实际办案探索出一种新的光谱联用角度和方法。
差分拉曼光谱;X射线荧光光谱;药瓶;多层感知器神经网络;Fisher判别分析;系统聚类;主成分分析
在日常生活中,药瓶较为常见,一些不法商家会在药瓶中添加违禁品,这会对人体造成较大损害。在案件现场,通过系统分析药瓶物证可推断出犯罪嫌疑人的患病情况、流窜途径、经济状况等重要的个人信息,为警方对嫌疑人进行画像、缩小侦察范围提供帮助。药瓶的主要成分多为塑料,目前法庭科学常用的塑料检测手段有红外光谱法、拉曼光谱法[1]、差分拉曼光谱法[2-3]、X射线荧光光谱法[4]、扫描电镜能谱法、裂解气相色谱法[5]、热分析法、液相色谱法等。在上述方法中,有些需要对样品进行前处理,有些会破坏检测材料。光谱联用手段会将2种光谱带的优势充分结合,从而提供更加详细的样品信息。差分拉曼光谱的优点有无损检材、简便快捷、抗荧光干扰能力强等[6]。X射线荧光光谱的优势在于可以直接得到样品的元素种类和含量,可以更加直观地区分样品[7],二者相结合可以更好地实现样品的分类和区分。
传统的差分拉曼光谱法根据样品的特征峰数目、峰位、峰强等信息判断区分样品[8]。由于人工分类的误差较大,因此文中将化学计量学应用于光谱数据分析中。首先利用主成分分析进行降维,用提取到的主成分进行系统聚类,将提取到的因子作为识别模型的特征输入建立判别模型,同时搭建MLP神经网络,对未知样本的分类归属进行预测。该方法可以有效地消除变量间的量纲关系,并实现样品的分类预测,效果较好。
文中实验将差分拉曼光谱法与X射线荧光光谱法相结合,从有机和无机的角度对样品进行研究,探索出一种新型光谱联用方法。同时,应用聚类分析、判别分析、神经网络等方法处理数据,比较不同模型下的分析准确性和科学性。该方法充分地体现了二者的优势,同时结合化学计量学的一些方法实现了对样
本分类的预测及组内样品的区分,可以为未来检测塑料药瓶提供一种新思路、新方法。
主要仪器为南京简智SERDS Portable−Base型便携式差分拉曼光谱仪,双频光源,光源波长为784、785 nm,精度为±0.3 nm,激光功率为440 mW,扫描次数为3,扫描时间为10 s,扫描范围为250~2 800 cm−1;X−MET8000 Expert型X射线荧光光谱仪,英国牛津公司,铑(Rh)阳极靶,测试电压为50 kV,电流设置为200 μA,测试时间为60 s,工作温度为−25~50 ℃,工作模式为plastic。
选择产地主要为吉林、辽宁、北京、山东等不同来源、不同品牌的药瓶54个(样品表略)。
拉曼光谱属于分子光谱,可以通过特征峰峰位确定样品的分子结构,故采用差分拉曼光谱分析样品的成分。差分拉曼光谱是在2种略有差异的激发光源下,经过归一化(Normalization)、基线矫正(Baseline correction)等数学手段相减处理得到的拉曼峰[9],通过与标准拉曼峰进行比较,即可得到样品的主要成分和填料[10-11]。部分常见物质的标准拉曼峰见表1。
表1 标准拉曼峰对照
Tab.1 Comparison of standard Raman peak
以24#样品为例(见图1),样品在803、835、968、1 150、1 328、1 458 cm−1处有特征峰,说明样本的主要成分为PP;在444、606 cm−1处有特征峰,说明样本含有二氧化钛。
图1 24#样品的差分拉曼光谱
不同品牌和厂家在生产药瓶时选择的成分、填料及其配比存在差异,这些差异导致差分拉曼光谱的特征峰位置、特征峰相对峰高比等不同,也导致X射线荧光光谱的元素含量不同,这些差异为区分药瓶样品提供了依据。随机选取13#、14#样品的差分拉曼光谱图进行比较分析(见图2)可以发现,二者的特征峰峰数不同,13#样品较少,14#样品较多;13#样品在449 cm−1和622 cm−1处有2个特征峰,推测其含有二氧化钛;14#样品在607 cm−1和1 129 cm−1处有特征峰,推测其含有硫酸钡;13#样品在627、849、849、1 108、1 284 cm−1处有特征峰,14#样品在803、835、968、1 159、1 330 cm−1处有特征峰,对照表1发现13#样品为PET类,14#样品为PP类,据此可以将2种样品区分开。
图2 13#、14#样品的差分拉曼光谱
随机选取14#、18#、19#、29#、31#、40#样品的X射线荧光光谱数据进行分析,其结果如表2所示。由表2发现,不同样品的元素含量差异较大,可以满足区分需求。
表2 部分样品的试验结果
Tab.2 Test results of partial samples mg/kg
由于差分拉曼光谱数据由拉曼位移和对应强度构成,且数据量较大,不同样品间可能存在线性关系,会导致信息的重叠,影响分类的准确性[12],增加分类难度,故需要对其进行降维处理。因子分析的数学模型见式(1)—(3)。
…
式中:Z为原始变量;p为公共因子;U表示无法解释部分。
估算因子载荷矩阵的方法有主成分法、极大似然法、最小二乘法等。文中采用主成分分析法(PCA)对原始数据进行降维,共提取了3个特征值大于1的主成分,其因子贡献率结果见表3。
系统聚类又称分层聚类,首先将每个个体视为单独的类别,再将相似度最高的2个类别进行合并,不断重复这个过程,直到所有个体都归为一类[13]。文中采用组间连接法作为分类方法,以欧氏距离为区间,将提取到的主成分作为新的变量,代替原始数据,聚类结果见图3。
由图3可知,当并类距离为1时,样品被分为10类;当并类距离为2时,样品被分为8类;当并类距离为3时,样品被分为7类;当并类距离为25时,凝聚停止,所有样本归为一类。由于系统聚类是一种无监督的分类方式[14],需要借助集中计划来确定分类数目,集中计划对应碎石图如图4所示。
表3 总方差解释
Tab.3 Total variance interpretation
图3 系统聚类谱系
图4 集中计划碎石图
由图4可以发现,曲线在46处斜率发生了突变,曲线骤升。故可以确定,当并类距离为2时,样品被分为8类是较为合理的[15-16]。
判别分析是在分类数已知的前提下根据已经确定类别的样品来实现将未知分类样品纳入已有分类中的一种统计学方法。判别分析的主要思路是根据研究对象的大量信息来建立一个或多个判别函数,计算整体判别指标。对于一个未知类别的个案,只需要将其信息代入判别函数中,即可确定其类别归属。常用的判别分析方法有距离判别法、Fisher判别法、Bayes判别法等[17]。Fisher判别法对总体的分布不做任何要求,故文中采用该判别方法来建立判别函数。
以差分拉曼光谱为例,将提取到的3个主成分作为自变量,按照系统聚类结果将分组变量定义为1—8。Fisher判别函数非标准化的系数矩阵见表4,其对应的判别函数见式(4)—(6)。
式中:1、2、3为3个判别函数;1、2、3为3个主成分。
建立判别函数后需要对其模型摘要进行分析,以确定哪种函数可以更好地实现对样品分类归属的预测,特征函数的摘要统计见表5。
表4 典则判别函数系数矩阵
Tab.4 Coefficients matrix of canonical discriminant function
表5 特征函数的摘要统计
Tab.5 Abstract of characteristic functions
注:典型相关性表示函数与各样本间的相关程度[18]。
由表5可知,第1、第2、第3特征函数的典型相关性分别为1.000、0.993、0.972,表明它与样本间的相关性很高。前2个函数的特征值分别为2 892.693、67.114,累计贡献率达到了99.4%,说明第1、第2判别函数的判别力高,故可以考虑放弃第3判别函数[19-21]。
威尔克Lambda值代表函数对样本模型的影响力,其对应函数见式(7)。
式中:λ为威尔克Lambda值;E为特征值。
由式(7)可以看出,威尔克Lambda值越小,影响力越大。
故选取第1、第2判别函数建立联合分布图(见图5),经交叉验证,判别分析的最终分类准确率为90.7%。由于第3、第4类样本的重心有堆叠,故尝试使用X射线荧光光谱进行区分。
以第3、第4类部分样品为例,样品的X射线荧光光谱数据见表7。第4类样品的Ti元素含量均超过了12 g/kg,而第3类样品则小于9 g/kg,第4类样品的Cl元素含量超过了100 mg/kg,而第3类则小于100 mg/kg。以此类推,根据元素含量的不同即可将样本进行有效区分。
为了进一步提高分类的准确率,将各类样本进行有效分类,采用多层感知器神经网络进行分类。多层感知器(Multi−Layer Rerceptron)又叫人工神经网络(ANN),其特点为除了输出层以外可以有多个隐层,即不存在回路或环路,是一个全连接网络[22]。
文中采用75%、15%、15%的比例将样本数据随机分布为训练集、验证集和测试集,训练集用来训练模型,验证集用来检验模型结果,反向优化模型。由于数据间可能存在某种量纲关系,所以文中对数据进行标准化处理,方便数据间的比较,以此建立神经网络。经检验,测试集分类结果正确率为100%(见表8)。
图5 样品的联合分布
表7 第3、第4类部分样品的试验结果
Tab.7 Test results of class 3 and class 4 samples
表8 MLP模型训练结果
Tab.8 Results of MLP model training
根据训练结果可知,该神经网络对样品的训练集的准确率达到了94.4%,对测试集的准确率为100%,说明该方法可行,相较于判别分析的准确率有进一步提高。未来可以搜集大量样品建立药瓶数据库,进一步提高分类的准确率。
采用差分拉曼光谱和X射线荧光光谱对54个药瓶样品进行了测试分析,获得了样品的差分拉曼光谱图,以及样品各元素的含量,得到了样品的主要成分及填料等信息。根据样品差分拉曼光谱图中特征峰峰数、峰位、峰强等将样品分为8类,同类中的样品可以根据元素的含量进行区分。
建立了基于聚类分析的Fisher判别分析和多层感知器神经网络分类模型,预测分类模型的准确率为90.7%和100%,比较认为多层感知器神经网络的预测效果更好。
未来可以通过搜集足够多的样品建立数据库,通过反复训练分类模型,以达到更好的效果。对于收集到的未知样品,可以按照文中的研究思路进行分类预测,从而达到大大缩短侦查时间、缩小侦查范围等目的,为推断犯罪嫌疑人个人信息、推测可能的销售地点、打击假冒伪劣产品等提供帮助。
[1] 舒琳, 高嘉诚, 谢兰桂, 等. 拉曼光谱在药用聚丙烯再生料识别中的应用[J]. 中国药学杂志, 2021, 56(9): 756-761.
SHU Lin, GAO Jia-cheng, XIE Lan-gui, et al. Application of Raman Spectroscopy in Identification of Recycled Polypropylene in Pharmaceutical Packaging Materials[J]. Chinese Pharmaceutical Journal, 2021, 56(9): 756-761.
[2] 田陆川, 姜红, 陈坦之, 等. 差分拉曼光谱结合聚类分析检验电线塑料外皮研究[J]. 中国塑料, 2021, 35(7): 97-102.
TIAN Lu-chuan, JIANG Hong, CHEN Tan-zhi, et al. Study on Differential Raman Spectroscopy Combined with Cluster Analysis for Inspection of Plastic Wire Sheath[J]. China Plastics, 2021, 35(7): 97-102.
[3] 田陆川, 姜红. 食品塑料包装材料的检验研究进展[J]. 安徽化工, 2021, 47(1): 4-7.
TIAN Lu-chuan, JIANG Hong. Study Progress on the Identification of Food Plastic Packaging Materials[J]. Anhui Chemical Industry, 2021, 47(1): 4-7.
[4] 姜红, 鞠晨阳, 务瑞杰, 等. 聚类分析法的塑料饮料瓶光谱分析[J]. 红外与激光工程, 2018, 47(8): 0823002.
JIANG Hong, JU Chen-yang, WU Rui-jie, et al. Spectral Analysis of Plastic Beverage Bottles Based on Cluster Analysis[J]. Infrared and Laser Engineering, 2018, 47(8): 0823002.
[5] 吴国萍, 周亚红. 裂解气相色谱-质谱法检测常见塑料制品高聚物[J]. 中国司法鉴定, 2018(1): 64-71.
WU Guo-ping, ZHOU Ya-hong. Analysis of Common Plastic Products by Pyrolysis-Gas Chromatography/Mass Spectrometry[J]. Chinese Journal of Forensic Sciences, 2018(1): 64-71.
[6] 韩宏福, 姜红, 王子琦, 等. 基于化学计量学对药品铝塑包装片的差分拉曼光谱分析[J].包装工程,2022,43(5):108-114.
HAN Hong-fu, JIANG Hong, WANG Zi-qi, et al. Differential Raman Spectrometric Analysis of Aluminum Plastic Packaging Tablets Based on Chemometrics[J]. Packaging Engineering,2022,43(5):108-114.
[7] 姜红, 林凡琦, 满吉. X射线荧光光谱结合聚类分析检验快递塑料包装袋[J]. 包装工程, 2021, 42(19): 158-165.
JIANG Hong, LIN Fan-qi, MAN Ji. Inspection of Express Plastic Packaging Bags by X-Ray Fluorescence Spectrometry Combined with Cluster Analysis[J]. Packaging Engineering, 2021, 42(19): 158-165.
[8] 姜红, 田陆川, 王艺霖, 等. 差分拉曼光谱法结合聚类分析检验食品塑料包装盒[J]. 包装工程, 2021, 42(15): 85-93.
JIANG Hong, TIAN Lu-chuan, WANG Yi-lin, et al. Differential Raman Spectroscopy Combined with Cluster Analysis for Inspection of Food Plastic Packaging Box[J]. Packaging Engineering, 2021, 42(15): 85-93.
[9] 张进, 姜红, 段斌, 等. 差分拉曼光谱结合化学计量学对口红的检验研究[J]. 激光与光电子学进展, 2021, 58(24): 521-526.
ZHANG Jin, JIANG Hong, DUAN Bin, et al. Differential Raman Spectroscopy Combined with Chemometrics to Test Lipstick[J]. Laser & Optoelectronics Progress, 2021, 58(24): 521-526.
[10] 陈和生, 孙育斌. 几种塑料的傅里叶变换拉曼光谱分析[J]. 塑料科技, 2012, 40(6): 69-72.
CHEN He-sheng, SUN Yu-bin. Analysis of Several Kinds of Plastics by Use of FT-Raman Specroscopy[J]. Plastics Science and Technology, 2012, 40(6): 69-72.
[11] 董鹍, 饶之帆, 杨晓云, 等. 几种塑料的拉曼光谱检测[J]. 塑料工业, 2011, 39(6): 67-70.
DONG Kun, RAO Zhi-fan, YANG Xiao-yun, et al. Determination of Several Plastic by Raman Spectroscopy[J]. China Plastics Industry, 2011, 39(6): 67-70.
[12] 付钧泽, 张嘉楠, 姜红. 红外光谱法结合K−均值聚类与神经网络对饮料瓶的检验研究[J]. 中国塑料, 2021, 35(1): 91-97.
FU Jun-ze, ZHANG Jia-nan, JIANG Hong. Study on Infrared Spectroscopy Combined with K-Means Clustering and Neural Network for Beverage Bottle Inspection[J]. China Plastics, 2021, 35(1): 91-97.
[13] 王欣, 姜红, 刘峰, 等. 基于差分喇曼光谱快速鉴别食品塑料包装袋[J]. 激光技术, 2021, 45(2): 213-217.
WANG Xin, JIANG Hong, LIU Feng, et al. Rapid Identification of Food Plastic Packaging Bags Based on Differential Raman Spectroscopy[J]. Laser Technology, 2021, 45(2): 213-217.
[14] 张进, 姜红, 刘峰, 等. 差分喇曼光谱结合化学计量学检验烟用内衬纸[J]. 激光技术, 2021, 45(1): 61-66.
ZHANG Jin, JIANG Hong, LIU Feng, et al. Differential Raman Spectroscopy Combined with Stoichiometry for Inspection of Cigarette Liner[J]. Laser Technology, 2021, 45(1): 61-66.
[15] 张妮妮, 孙胜娟, 张永健. 未确知聚类在专利质量评价中的应用[J]. 现代电子技术, 2020, 43(8): 143-146.
ZHANG Ni-ni, SUN Sheng-juan, ZHANG Yong-jian. Application of Unascertained Clustering in Patent Quality Evaluation[J]. Modern Electronics Technique, 2020, 43(8): 143-146.
[16] 张妮妮. 基于未确知聚类的专利质量综合评价[D]. 邯郸: 河北工程大学, 2020: 14-17.
ZHANG Ni-ni. Comprehensive Evaluation of Patent Quality Based on Unascertained Clustering[D]. Handan: Hebei University of Engineering, 2020: 14-17.
[17] 李彬, 杨洁敏. 基于社会角色理论的村卫生室定位方法研究[J]. 华中科技大学学报(社会科学版), 2009, 23(2): 20-26.
LI Bin, YANG Jie-min. Based on Social Role Theory of Village Health Positioning Method[J]. Journal of Huazhong University of Science and Technology (Social Science Edition), 2009, 23(2): 20-26.
[18] 陆润洲, 姜红, 满吉, 等. X射线荧光光谱结合差分拉曼光谱对烟盒的分类研究[J]. 激光与光电子学进展, 2022, 59(5): 19-27.
LU Run-zhou, JIANG Hong, MAN Ji, et al. Study on Classification of Cigarette Cases by X-Ray Fluorescence Spectroscopy Combined with Differential Raman Spectroscopy[J]. Laser & Optoelectronics Progress, 2022, 59(5): 19-27.
[19] 颜文杰, 卫辰洁, 范琳媛, 等. 基于Fisher判别-支持向量机的汽车灯罩显微激光拉曼光谱研究[J]. 中国塑料, 2021, 35(3): 124-129.
YAN Wen-jie, WEI Chen-jie, FAN Lin-yuan, et al. Study on Microscopic Laser Raman Spectroscopy of Automobile Lampshade Based on Fisher Discriminant-Support Vector Machine[J]. China Plastics, 2021, 35(3): 124-129.
[20] 付钧泽, 姜红, 李意, 等. XRF结合化学计量学检验香烟烟灰物证[J]. 激光与光电子学进展, 2021, 58(6): 411-418.
FU Jun-ze, JIANG Hong, LI Yi, et al. Examination of Cigarette Ash Evidence by XRF Combined with Chemometrics[J]. Laser & Optoelectronics Progress, 2021, 58(6): 411-418.
[21] 朱晓晗, 姜红, 崔傲松, 等. 基于Fisher判别分析的一次性塑料手套光谱鉴别[J]. 塑料工业, 2020, 48(7): 108-112.
ZHU Xiao-han, JIANG Hong, CUI Ao-song, et al. Spectrum Identification of Disposable Plastic Gloves Based on Fisher Discriminant Analysis[J]. China Plastics Industry, 2020, 48(7): 108-112.
[22] 冯佩, 李俣. 基于人工神经网络和粒子群优化的半导体激光器参数反向设计方法[J]. 中国激光, 2019, 46(7): 9-15.
FENG Pei, LI Yu. Semiconductor Laser Parameter Inverse Design Method Based on Artificial Neural Network and Particle Swarm Optimization[J]. Chinese Journal of Lasers, 2019, 46(7): 9-15.
Multivariate Classification of Plastic Medicine Bottles by Differential Raman Spectroscopy Combined with XRF
TIAN Lu-chuan1a, JIANG Hong1a,1b, CHEN Tan-zhi1a, GAO Yong-zhao1a, LI Chun-lei1b,QU Yin-xuan1a, LIU Feng2
(1a. Investigation Institute b. Food, Drug and Environmental Crime Research Center, People's Public Security University of China, Beijing 100038, China; 2. Nanjing Jianzhi Instrument and Equipment Co., Ltd., Nanjing 210049, China)
The work aims to construct a classification and prediction model of medicine bottles. Differential Raman spectroscopy and X-ray fluorescence spectroscopy were used to analyze and test 54 plastic medicine bottles from different brands and producing areas. The differential Raman spectra of 54 samples and the content of chlorine, calcium, titanium, iron and zinc were obtained. The principal component analysis was used to reduce the dimension of the differential Raman spectrum data, and then the system clustering was used to divide the reduced dimension data into 8 categories. Based on this, the discriminant analysis model was established. The final discriminant model was verified by cross validation, and the accuracy was 90.7%, and the classification accuracy of the multi-layer perceptron was 100%. The classification effect was good. The differential Raman spectrum can infer the molecular structure of the sample according to the characteristic peaks in the spectrum, and the samples can be classified and analyzed according to the peak position. The X-ray fluorescence spectrum can distinguish the samples according to the types and contents of various elements, so as to realize the refinement in the group. Differential Raman spectroscopy and X-ray fluorescence spectroscopy can classify medicine bottles from organic and inorganic perspectives respectively. They complement each other in analysis. They can be used to explore a new angle and method of spectral combination for the actual handling of cases by public security organs.
differential Raman spectroscopy; X-ray fluorescence spectroscopy; medicine bottle; multilayer perceptron neural network; Fisher discriminant analysis; systematic clustering; principal component analysis
TS206.4
A
1001-3563(2022)17-0059-07
10.19554/j.cnki.1001-3563.2022.17.008
2021–12–13
国家重点研发项目(2018YFC1602701);中央高校基本科研业务费项目(2020JKF502)
田陆川(2001—),男,本科生,主攻刑事科学技术。
姜红(1963—),女,教授,主要研究方向为微量物证分析。
责任编辑:彭颋