FTIR光谱结合数据挖掘方法构建死亡时间推断数学模型

2018-03-30 02:43秦新潮林汉成邓恺飞罗仪文孙其然杜秋香王振原孙俊红
法医学杂志 2018年1期
关键词:校正预处理光谱

王 磊 ,秦新潮 ,林汉成 ,邓恺飞 ,罗仪文 ,孙其然 ,杜秋香 ,王振原 ,托 娅 ,孙俊红

(1.山西医科大学法医学院,山西 太原 030001;2.司法鉴定科学研究院 上海市法医学重点实验室 上海市司法鉴定专业技术服务平台,上海 200063;3.上海健康医学院基础医学院,上海 201318;4.渭南市公安局临渭分局,陕西 渭南 714000;5.西安交通大学医学部法医学院,陕西 西安 710061)

死亡时间为案件定性和侦查提供关键信息,因此明确死亡时间对法医极为重要[1-3]。目前,国内外法医学者提出了多种死亡时间推断方法,如体液生物化学、超生反应、代谢组学、影像学和遗传物质降解规律等方法[4-6]。但是,在实践中由于尸体受到温度、湿度、动物昆虫和人为因素等多种因素的影响,使得准确推断死亡时间仍是法医学难题之一[2,7-8]。

本课题组前期研究[9-11]分析了死后大鼠脾等组织傅里叶变换红外(Fourier transform infrared,FTIR)光谱检测数据,利用吸光度峰强变化和死亡时间的关系推断死亡时间,提出了新的死亡时间推断方法。FTIR光谱技术可以准确检测物质基团化学键的振动,全面反映组织的特征信息,由于其检测灵敏度高、特异性好、操作简便等优势被广泛应用[12-13]。

随着数据挖掘和计算机技术的发展,数据挖掘算法成为目前最先进的光谱学分析手段[12]。其中,偏最小二乘法(partial least squares,PLS)是基于多元线性回归和主成分回归法发展起来的多元算法,具有模型预测能力强、可利用较少样本处理多变量和模型相对简单等优点,可对数据进行定性(分类判别)或定量(回归)分析[12,14]。 支持向量机(support vector machine,SVM)是基于统计学习理论的机器学习算法,专门针对小样本建立的统计学习方法,同时适用于线性和非线性数据集合的分析[15]。本研究在光谱学研究基础上引入数据挖掘算法,深度挖掘生物组织光谱信息,建立死亡时间定性和定量判别模型,为准确推断死亡时间建立新方法。

1 材料与方法

1.1 实验分组及取材

成年雄性大鼠10只(由上海交通大学医学院提供),体质量(260±20)g,室温饲养 2d 后脱臼法处死,置于 20 ℃环境中。 于处死后 0、6、12、24、48、72、96、120、144、168 h,分别取每只大鼠 1 mm×1 mm×1 mm的脾组织放入液氮中保存。每只大鼠脾组织样本重复收集。

1.2 FTIR检测

取出液氮中保存组织置于衰减全反射(attenuated total reflectance,ATR)探头硒化锌晶体表面,下压ATR探头上的杠杆挤压大鼠脾组织,使之紧密贴附于晶体表面。挤压后脾组织用电吹风(冷风)吹干进行光谱采集。用尼高力6700傅里叶变换红外光谱仪(美国 Thermo Fisher Scientific公司)在 4000~900cm-1范围内进行红外光谱扫描,分辨率为4cm-1,每个样本累计扫描20次。

1.3 数据预处理

光谱预处理采用Unscrambler X 10.4软件(挪威CAMO公司)。FTIR检测数据采用平滑处理法(包括5点、15点和25点平滑处理法)去除噪声;二阶导数算法以提高分辨率、增大信息量,有效地分辨光谱图中的重叠峰;归一化处理以校正由微小光程差引起的光谱变化;多元散射校正(multiplicative scatter correction,MSC)和标准正态变量(standard normal variate,SNV)校正方法有效消除组织表面颗粒大小、表面散射以及光程差变化等问题。

1.4 数据分析

应用Matlab R2014a软件的PLS Toolbox 8.1.1工具箱(美国MathWorks公司)对预处理后的FTIR检测数据进行主成分分析(principal component analysis,PCA)、支持向量机分类(support vector machine classification,SVMC)和偏最小二乘法判别分析(partial least squares-discriminant analysis,PLS-DA)。 每个时间点随机取8个样本的光谱数据建立校正集,其余2个样本光谱数据为预测集,采用留一法交叉验证建立死亡时间PLS-DA、SVMC判别模型(定性)和PLS回归模型(定量)。

PLS回归模型中决定系数(R2)、校正均方根误差(root mean square error of calibration,RMSEC)以及交叉验证均方根误差(root mean square error of crossvalidation,RMSECV)都是校正模型评估参数,评估模型质量。预测均方根误差(root mean square error of prediction,RMSEP)是模型外部验证参数,评估模型预测效果。

结合法医学实践与PCA结果,进一步细分死亡时间范围,选取不同的分类方法进行死亡时间的PLSDA分析。分类方法包括七分类法(分为0~24h、48h、72 h、96 h、120 h、144 h 和 168 h)、四分类法(分为 0~24 h、48~72 h、96~120 h 和 144~168 h)、三分类法(分为 0~24h、48~72h 和 96~168h)和二分类法(分为 0~24 h、48~168h)。 通过 Matlab R2014a 软件计算得出判别模型的准确率及未识别样本数,其中准确率是模型识别正确的样本数占识别样本数的百分比。

2 结 果

2.1 数据预处理结果

在4 000~900 cm-1波数范围内测定大鼠脾组织FTIR光谱图谱,由于FTIR检测数据在2500~1800cm-1波数范围内缺乏有效的生物学信息,为减少误差,后续的研究中去掉该段波数(图1)。

图1 平滑、SNV预处理后大鼠脾组织的光谱图

2.2 PCA结果

原始FTIR检测数据经过5点平滑处理,进行PCA,选取主成分数不超过10个。PCA显示,主成分1、主成分2和主成分3反映了总体数据变异的96%。如图2所示,各实验组的FTIR检测数据基本上可以聚为 0~24 h、48~72 h 和 96~168 h。 其中,0~24 h 与48~72h两个时间段的FTIR检测数据在PCA得分图上部分重合,而96~168h组数据与其他两个时间段光谱数据界限清晰。

图2 FTIR检测数据在前三个主成分上的得分三维图

2.3 定性分析

2.3.1 预处理方法对PLS-DA结果的影响

FTIR检测数据经平滑、归一化、MSC、SNV预处理后,留一法交叉验证后获得最佳潜变量(latent variable,LV),以建立PLS-DA预测模型,模型校正集和预测集结果如表1所示。在多种预处理结果中,二阶导数算法计算后,PLS-DA模型校正集和预测集准确率都为100%,且模型校正集准确率在所有预处理结果中最高;模型校正集和预测集未识别样本数都较低,分别为3和0。因此,二阶导数算法是建立PLS-DA预测模型的最佳预处理方法。

2.3.2 波段对PLS-DA结果的影响

根据2.3.1分析结果,FTIR检测数据采用二阶导数算法计算,分别选取 1800~900cm-1、4000~2500cm-1以及 1 800~900 cm-1和 4 000~2 500 cm-1联合分析比较。结果如表2所示,联合应用1 800~900 cm-1和4000~2500cm-1分析时,PLS-DA模型校正集准确率达到100%,同时未识别样本数较低,分别为5和0。因此,1800~900cm-1和 4000~2500cm-1联合分析最适合本研究。

表1 预处理方法对PLS-DA结果的影响

表2 波段对PLS-DA结果的影响

2.3.3 分类对PLS-DA结果的影响

综合法医实践和PCA数据特征,本研究选择了四种分类方法将实验数据进一步细分为不同类别进行PLS-DA分析。FTIR检测数据PLS-DA判别模型在四分类、三分类和二分类中准确率都达到100%,且未识别样本数较低,均不超过2个,远低于七分类的13个(表3)。证明PLS-DA可以将不同死亡时间点FTIR检测数据进行有效分类,尤其可将死亡时间准确划分为 0~24h、48~72h、96~120h 和 144~168 h,这一结果对死亡时间推断具有重要的实践意义。如图3所示,在PLS-DA分析中,各实验组FTIR检测数据基本上可以被分为 0~24h、48~72h、96~120h 和 144~168h。

表3 分类对PLS-DA结果的影响

图3 不同分类变量的PLS-DA结果

2.3.4 预处理方法对SVMC结果的影响

由表4可知,与原始数据相比,平滑、SNV和二阶导数算法处理后,SVMC模型校正集和预测集准确率提升不明显,归一化和MSC处理后模型准确率(95%和94%)提升较多,且MSC处理后模型预测准确率(95%)最高。因此,MSC是最适合SVMC分析的数据预处理方法。

2.3.5 分类对SVMC结果的影响

分类依据及方法同PLS-DA分析,对FTIR检测数据进行SVMC分析(表5)。SVMC分析中二分类或三分类模型准确率较高,校正集和预测集准确率都稳定在95%左右,但是对于四分类或七分类效果明显下降。同时,比较PLS-DA和SVMC两种算法,所有分类中,PLS-DA模型校正集和预测集准确率都高于SVMC分析,甚至部分分类的PLS-DA模型准确率为100%,远高于SVMC分析准确率。

表4 预处理方法对SVMC结果的影响(%)

表5 不同分类下SVMC和PLS-DA结果比较(%)

2.4 定量分析

校正集和预测集的建立方法同定性分析,LV不超过10个,FTIR检测数据经预处理后建立PLS回归模型。结果如表6所示,与原始数据相比,经标准正态变量校正预处理后模型交叉验证决定系数(R2)最高(0.96),RMSEC和 RMSECV 都较低,分别为 9.90h和11.39 h,校正集决定系数(R2)达到 0.97,RMSEP 较低,数值为10.49h。因此,在PLS回归分析中选取标准正态变量校正作为预处理方法。图4为PLS回归模型预测结果,模型决定系数(R2)为0.97,RMSEP为10.49h。

图4 PLS回归模型预测结果

3 讨 论

本研究利用FTIR光谱技术检测大鼠死后脾组织不同时间点的变化,与既往[16-17]光谱分析相比,此次实验最大优势在于引入数据挖掘算法和大数据分析软件,深度挖掘FTIR检测数据信息建立有效的定性、定量分析数学模型,以准确推断死亡时间。

PCA 将光谱样本聚为 0~24h、48~72h 和 96~168h,说明这三个时间段的大鼠脾组织FTIR检测数据之间差异具有统计学意义,与之前的研究结果[16]一致。其中,0~24h与48~72h FTIR检测数据在PCA得分图上部分重合,一方面可能是由于死后24h以内属于早期死亡[2],组织腐败不明显或部分腐败组织与死后48~72 h快速腐败分解的大鼠脾组织的化学组分相似,另一方面由于死后生物组织的降解转化与组织内化学组分(如组织蛋白脂肪比、水分、无机盐及矿物质的含量等)和生物酶活性等因素相关[2,18],死后组织的FTIR检测数据特征具有个体差异。值得注意的是,死后96~168h的组织光谱在PCA得分图上与其他两个时间段组织光谱相距较远,几乎没有样本重叠,说明该时间段脾组织的FTIR特征与其他时间段之间差异显著。 根据目前的研究[2,16,19-20],主要是由于死后晚期脾组织严重降解,微生物繁殖演替,脾组织内物质发生转化,产生新的化学物质。

在法医学实践中,部分案件需要法医根据尸体检验以及案件调查情况对死亡时间划定范围,以认定或排除嫌疑人。因此,应用定性分析的方法对死亡时间进行分类判别,即划定死亡时间范围,具有重要的法医学意义。本研究中,不同死亡时间的脾组织FTIR检测数据在PCA结果中具有明显的聚类趋势,为了将死亡时间范围进一步细分,弥补PCA的不足,在PCA结果的基础上增加了分类以进行PLS-DA分析。PLS-DA是将PLS回归特性与判别能力相结合的线性分类方法,对FTIR检测数据矩阵和类别矩阵之间的相关关系进行分析,其主要优点是用LV对数据变异性进行建模,可实现不同类型数据及数据关系的可视化[14]。本研究结果显示,所有预处理后FTIR检测数据PLS-DA准确率接近99%,说明本研究中不同死亡时间段内FTIR检测数据特征差异显著,与PCA结果吻合,也说明PLS-DA算法适合本研究FTIR检测数据类型。为比较PLS-DA模型的判别能力,我们将FTIR检测数据分为不同类别进行判别分析。其中四分类(0~24h、48~72h、96~120h 和 144~168h)的 PLS-DA 模型准确率为100%,未识别样本较少。此外,虽然三分类和二分类模型准确率都较高,但是分类变量少,对死亡时间范围划分过宽导致其实际意义有限。因此,PLS-DA四分类模型较其他分类模型能更准确地划分死亡时间范围,对死亡时间的推断具有重要的应用价值。

SVMC是一种新的模式识别方法,已表现出许多优于其他模式识别方法的性能[21]。SVMC方法将待解决的模式识别问题转化成为一个二次规划寻优问题,在理论上保证了全局最优解,避免了局部收敛现象[22]。近红外光谱法结合SVMC在中草药和石油的分类和鉴别上得到了成功应用[22]。结果显示,SVMC对死后大鼠脾组织FTIR检测数据可实现较理想的三分类(0~24h、48~72h 和 96~168h)推断,其外部验证准确率达到95%,判别能力略低于PLS-DA,但对死亡时间推断仍具有重要的实践意义。

定性判别对死亡时间段进行了大致划分,可初步推断死亡时间范围。为提高死亡时间推断的精确度,我们对FTIR检测数据进行了PLS回归分析。PLS回归模型的外部验证结果显示其决定系数为0.97,证明死亡时间与组织FTIR检测数据之间高度相关。RMSEP为10.5h。由于本研究设置了多个时间点,死后时间最长为168h,且在24h以后相邻时间点间隔为24h,所以本研究的PLS回归模型对于死亡晚期(>24h)的推断具有更高的参考价值。

综上所述,本研究基于FTIR技术和数据挖掘方法,在PCA结果的基础上分别利用PLS-DA、SVMC和PLS回归算法建立了死亡时间推断模型,这些模型能准确识别或预测不同死亡时间大鼠脾组织,表明利用FTIR技术结合数据挖掘方法进行死亡时间推断这一思路是可行的,为在法医实践中的应用奠定了基础。

[1]马剑龙,陈龙.死亡时间推断的方法学研究进展[J].中国法医学杂志,2015,30(5):478-481.

[2]赵子琴.法医病理学[M].4版.北京:人民卫生出版社,2009.

[3]SIMMONS T.Post-Mortem Interval Estimation:an Overview of Techniques[M]//SCHOTSMANS E M J,MÁRQUEZ-GRANT N,FORBES S L.Taphonomy of human remains:forensic analysis of the dead and the depositionalenvironment: forensic analysisofthe dead and the depositional environment.Chichester:John Wiley&Sons, Ltd,2017:134-142.

[4]李艳红,郑剑,胡金花,等.尸体眼玻璃体液钾、钡离子浓度与死亡时间的关系[J].南昌大学学报(医学版),2016,56(6):13-15,32.

[5]陶丽,马剑龙,陈龙.早期死亡时间推断研究进展[J].法医学杂志,2016,32(6):444-447.

[6]LV Y H, MA K J, ZHANG H, et al.A time course study demonstrating mRNA,microRNA,18S rRNA,and U6 snRNA changes to estimate PMI in deceased rat’s spleen[J].J Forensic Sci,2014,59(5):1286-1294.

[7]刘珊,许小明,郑剑,等.死亡时间推断的研究进展[J].南昌大学学报(医学版),2016,56(6):85-87,94.

[8]LI C,WANG Q,ZHANG Y,et al.Research progress in the estimation of the postmortem interval by Chinese forensic scholars[J].Forensic Sci Res,2016,1(1):3-13.

[9]黄平,托娅,王振原.傅里叶变换红外光谱技术在死亡时间推断中的运用[J].法医学杂志,2010,26(3):198-201.

[10]黎世莹,邵煜,李正东,等.窒息死大鼠肌肉傅里叶变换红外光谱变化与死亡时间的关系[J].法医学杂志,2012,28(3):161-166.

[11]黎世莹,邵煜,李正东,等.窒息死大鼠肝脾傅里叶变换红外光谱变化与死亡时间的关系[J].法医学杂志,2012,28(5):321-326.

[12]褚小立,陆婉珍.近五年我国近红外光谱分析技术研究与应用进展[J].光谱学与光谱分析,2014,34(10):2595-2605.

[13]王志军,申山山,邓恺飞,等.高温环境下死亡大鼠肾傅里叶显微红外光谱变化[J].法医学杂志,2015,31(4):257-261.

[14]BALLABIO D,CONSONNI V.Classification tools in chemistry.Part 1:linear models.PLS-DA[J].Anal Methods,2013,5:3790-3798.

[15]褚小立.化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社,2011.

[16]黄平,余荣军,李立,等.死后大鼠脾脏组织FTIR测量结果的法医学分析[J].中国司法鉴定,2010(5):38-42.

[17]黎世莹,黄平,陈忆九.窒息死大鼠肝脾FTIR光谱变化与死亡时间的关系[C].北京:全国第九次法医学术交流会,2013.

[18]张琳.大鼠尸体细菌群落演替与PMI推断意义[D].中南大学基础医学,2013.

[19]张琳,郭娟娟,特拉提,等.大鼠尸体细菌演替规律及其在死亡时间推断中的应用(英文)[J].法医学杂志,2016,32(1):1-6.

[20]METCALF J L, XU Z Z, WEISS S, et al.Microbialcommunity assembly and metabolic function during mammalian corpse decomposition[J].Science,2016,351(6269):158-162.

[21]FENG H, LING H, ZOU F,et al.SVM-based antiforensic method for spread-spectrum fingerprinting[J].Security and Communication Networks,2015,8:2624-2634.

[22]陈全胜,赵杰文,张海东,等.基于支持向量机的近红外光谱鉴别茶叶的真伪[J].光学学报,2006,26(6):933-937.

猜你喜欢
校正预处理光谱
基于三维Saab变换的高光谱图像压缩方法
劉光第《南旋記》校正
在Lightroom中校正镜头与透视畸变
基于预处理MUSIC算法的分布式阵列DOA估计
机内校正
浅谈PLC在预处理生产线自动化改造中的应用
星载近红外高光谱CO2遥感进展
络合萃取法预处理H酸废水
基于自适应预处理的改进CPF-GMRES算法
苦味酸与牛血清蛋白相互作用的光谱研究