基于机器学习算法研究不同电压所致猪皮肤电流损伤红外光谱特征

2018-02-26 06:26董贺文黎世莹邓恺飞罗仪文孙其然林汉成黄景锋刘宁国
法医学杂志 2018年6期
关键词:电击波段预处理

董贺文,李 伟,黎世莹,邓恺飞,曹 楠,罗仪文,孙其然,林汉成,,黄景锋,刘宁国,黄 平

(1.司法鉴定科学研究院 上海市法医学重点实验室 上海市司法鉴定专业技术服务平台,上海 200063;2.铁道警察学院公安技术系,河南 郑州 450053;3.北京市公安局司法鉴定中心,北京 100192;4.西安交通大学医学部法医学院,陕西 西安 710061)

电流损伤是一种特殊形式的烧伤,是全球烧伤病人入院的第四大常见原因[1],且具有很强的破坏性,我国电损伤的发生率和死亡率较高[2]。目前法医学实践中主要根据典型的电流斑以及皮肤金属化来认定电流损伤[3],此外亦开展了光镜[4-6]、计算机图像技术[7]、组织化学方法[8]以及原子吸收光谱法[9-10]对电流损伤时皮肤及重要器官的改变进行研究,并取得了一定的进展,但多局限于电流引起的差异,对不同电压的观察较少,且缺乏特异性[11-12]。

傅里叶变换红外显微光谱(Fourier transform infrared-microspectroscopy,FTIR-MSP)成像技术是一种强大的生物医学工具,被广泛运用于生物组织分析和疾病分子诊断中[13-15]。有法医学者使用FTIR-MSP成像技术检测死亡后的化学变化来推断死亡时间[16-18]。随着机器学习技术的发展,机器学习算法被引入红外光谱数据处理领域,在数据分析方面发挥出独特优势,目前,机器学习结合红外光谱技术已广泛应用于多个领域[19],比较常用的方法包括主成分分析(principal component analysis,PCA)、偏最小二乘法-判别分析(partial least squares-discriminant analysis,PLS-DA)等。

本研究旨在利用FTIR-MSP成像技术研究猪不同电压所致皮肤电流损伤的红外光谱特征,结合机器学习算法对光谱进行分析和建模,并使用建模波段优选和光谱预处理的方法对模型进行优化,最后比较分析各方法所建模型的分类效果,以期为不同电压所致皮肤电流损伤的鉴别提供新的思路。

1 材料与方法

1.1 动物模型建立及取材

本研究动物实验经司法鉴定科学研究院科学与伦理委员会批准。由上海甲干生物科技有限公司提供巴马小型猪4只,用于建立皮肤电流损伤动物模型,所采用的电压分别为110V、220V及380V。具体步骤:应用3%戊巴比妥钠麻醉后备皮,采用不同电压交流电电击猪左前肢皮肤,持续电击30 s死后,即刻进行取材,对照组取损伤对应部位皮肤组织,取材大小均为10 mm×10 mm。皮肤组织经磷酸盐缓冲液漂洗后即放入液氮中冷冻保存。

1.2 HE染色及傅里叶变换红外光谱数据采集

利用低温恒冷冻切片机(美国Thermo Fisher Scientific公司)对上述皮肤组织进行连续切片,厚6 μm,一张行常规HE染色,一张平铺至特制的氟化钡载玻片行FTIR-MSP成像检测。应用Nicolet 6700傅里叶变换红外光谱仪(美国Thermo Fisher Scientific公司)结合NicoletTMContinuμmTM显微红外光谱仪(美国Thermo Fisher Scientific公司)对皮肤组织切片上10mm×10mm范围内的区域进行光谱数据采集。该仪器配有液氮冷却的汞-镉-碲化物半导体检测器,其数据采集空间分辨率最小可达到50μm×50μm,设置光谱扫描范围为4000~1000cm-1,分辨率为8cm-1。比对连续切片HE染色结果,随机采集电击组及对照组皮肤组织的光谱数据并确保采集数据的重复性和均一性。110V、220V、380V电击组及对照组均采集25张红外光谱图像,以4∶1的比例将获得的光谱数据随机分成训练集和验证集。

1.3 机器学习算法

运用Omnic 8.2软件(美国Thermo Fisher Scientific公司)、The Unscrambler® X 10.4软件(挪威CAMO公司)对各组原始光谱数据进行预处理,包括光谱频率范围截取、正交信号校正(orthogonal signal correction,OSC)、标准正态变量(standard normal variate,SNV)、多元散射校正(multiplicative scatter correction,MSC)、归一化(normalization)及平滑(smoothing)等。

对原始光谱数据进行非监督型PCA模式分析,观察各组间光谱变量的差异性。其次运用监督型PLS-DA模式分析,根据决定系数R2及均方根误差(root mean square error,RMSE)评估模型的稳定性及预测能力。上述分析过程均由The Unscrambler®X 10.4软件实现。采用Hotelling’sT2检验、F检验及残差分析对离群样本进行剔除。

2 结 果

2.1 HE染色结果

如图1所示,与对照组皮肤组织相比,电击组所致的皮肤电流损伤均表现出典型的电流斑组织形态学改变,即表皮、真皮局部分离,表皮层细胞核拉长,呈栅栏、钉突状排列,真皮层胶原纤维凝固性坏死,皮肤附件亦呈极化改变。

2.2 红外光谱检测结果

如图2所示,对照组及电击各组均表现出相似的红外光谱谱图特征,谱图中不同峰位的吸收峰反映了对应官能团的振动模式。本研究将红外光谱谱图分为四个分波段(4 000~3 600 cm-1、3 600~2 800 cm-1、2 800~1 800 cm-1、1 800~1 000 cm-1)及 1 个全波段(4000~1000cm-1)进行研究。

2.3 PCA分析结果

本研究以散点聚类图的形式对PCA结果进行呈现,即每个样本以散点的形式投射在不同主成分二维空间内,通过观察各组在该空间的聚类情况,从而对光谱差异性进行评估。

如图3所示,主成分(principal component,PC)1和2能够解释对照组和电击组98%的光谱差异性(PC1:95%;PC2:3%)。在对照组与电击组形成的二维空间上,对照组与电击组聚类散点沿PC1坐标轴得到了显著区分。

如图4所示,PC1和PC2解释了电击各组90%的光谱差异性(PC1:79%;PC2:11%)。尽管电击各组的聚类散点在大体上可以区分,但是彼此之间存在相互重叠,且聚类散点过于松散。

图1 对照组和电击各组的组织病理学改变(HE×10)

图2 对照组和电击各组的红外光谱图

图3 对照组和电击组原始光谱全波段PCA得分图

图4 电击各组原始光谱全波段PCA得分图

2.4 电击各组原始光谱PLS-DA建模

本研究进一步采用PLS-DA这一经典的监督型数学模型对不同电压电击组进行区分。表1显示了不同波段原始光谱数据的PLS-DA建模结果。与其他波段比较,1800~1000cm-1波段建立的PLS-DA模型在校正和验证过程中具有较高的R2值及较低的RMSE值,该模型的校正和验证散点聚类图亦直观地表现了电击各组聚类在二维空间内的分布,相对而言,110V电击组的散点较为分散(图5)。

表1 电击各组不同波段的原始光谱PLS-DA结果

图5 电击各组原始光谱1800~1000cm-1波段PLS-DA得分图和模型验证图

2.5 电击各组不同预处理后PLS-DA建模

本研究对不同波段原始光谱数据进行不同方法的预处理,从而实现对PLS-DA模型的优化,以期改善电击各组个体间的差异。如表2所示,与其他预处理及波段比较,1800~1000cm-1及3600~2800cm-1波段经OSC预处理后具有较高的R2值及较低的RMSE值,但1800~1000cm-1波段模型的训练集数据离群值较多。3 600~2 800 cm-1波段模型的校正及验证散点聚类得分图显示了电击各组数据沿变量1自左向右均匀排列(图6)。

表2 电击各组原始光谱不同波段经不同预处理后PLS-DA结果

图6 电击各组原始光谱3600~2800cm-1波段经OSC预处理后的PLS-DA得分图和模型验证图

3 讨 论

3.1 组织病理学改变与红外光谱谱图观察

本研究结果显示,电流损伤后的皮肤组织具有显著的组织病理学改变,能够通过常规显微镜检查进行诊断,但难以进一步明确电流损伤的性质,即何种电压触电所致。众所周知,分子水平上的改变往往相较于组织形态学改变更为敏感,通常在形态学未发生明显变化时,即可出现显著的分子差异性。鉴于此,本研究应用FTIR-MSP成像技术对未经染色的皮肤组织切片进行无损性生物化学分析,以期能够在分子水平上对皮肤电流斑进行诊断并进一步区分不同电压所致的皮肤电流损伤。通过对红外光谱谱图的观察,发现电击各组及对照组均表现出较为一致的光谱吸收峰模式,难以通过单纯识别某一特征性吸收峰的变化对电击各组进行鉴别。因此,为了获取更多且更为敏感的光谱差异性信息,本研究将机器学习算法引入光谱数据的分析研究中。将红外光谱谱图按照上述结果进行分段,其中,3 600~2 800 cm-1的吸收峰主要由脂质酰基链甲基及亚甲基官能团振动引起;1800~1000cm-1的吸收峰主要由蛋白质、糖类、核酸及磷酸等分子物质振动引起;4000~3600cm-1、2800~1800cm-1的吸收峰大多为光学噪声、CO2、空气和水蒸气等因素的干扰。

3.2 PCA结果分析

本研究对全波段原始光谱数据进行了PCA分析,该方法属于一种非监督型机器学习模型,能够根据数据自身结构特点逐一提取差异性信息并以PC的形式进行呈现,从而达到区分各组的目的。本研究对照组与电击组PCA结果显示,PC1和PC2蕴含了对照组及电击组98%的光谱差异性,能够对两组的生物化学信息进行阐释,且得分图也直观地显示了两组有明显的区分。该结果提示,相较于肉眼光谱图观察,PCA具有更为强大的信息捕捉能力,能够对光谱中吸收峰位、半宽宽度及吸收强度等诸多指标的微小变化进行识别、放大。更为重要的是,PCA与传统组织病理学检验相比,往往不依赖于操作者的个人技术经验,仅通过数据内在结构特征客观地呈现结果,能够让使用者更为清晰地了解样本组间的差异性,因此在技术的普及、使用便利性等方面具有明显的优势。本研究PCA结果对于不同电压电击组的鉴别则相对不理想,主要表现为电击各组聚类显著性不足(重叠效应较大)、组内数据离散性较大等。其原因可能与PCA对电击各组中个体差异性变化的限制性不足有关,难以很好地降低组内光谱的差异或是将其错误地当作组间差异进行信息提取。

3.3 电击各组原始光谱PLS-DA模式识别分析

针对非监督型机器学习模型在不同电压电击组间鉴别的局限性,本研究应用PLS-DA监督型机器学习模型对其进行鉴别。相较于传统非监督型方法,该监督型数学模型可根据事先获取的分组信息,提取潜在变量(latent variable,LV),进一步放大组间光谱差异性并缩小组内差异性,最终获得最佳的分类效果。本研究电击各组不同波段原始光谱的PLS-DA建模结果显示,1800~1000cm-1波段建立的模型具有更好的稳定性和预测能力(校正过程R2值较高、RMSE值较低,且校正及预测过程中R2、RMSE更为接近),故认为PLS-DA模型分析中,该波段较其他波段更为理想,从其PLS-DA得分图也进一步证实了这一结论,而且,相较于电击各组PCA得分图,电击各组间亦得到了更为显著的区分。尽管PLS-DA在分类效果上明显优于PCA,但在1800~1000cm-1波段原始光谱PLS-DA得分图上仍然观察到电击各组聚类分布缺乏一定的规律性,难以通过某一具体提取变量进行解释,且110 V电击组散点离散性较大,可能在预测该电压的损伤时存在较大的误差,提示其在不同电压电击组鉴别时存在不足。

3.4 电击各组不同预处理后PLS-DA模式识别分析

本研究通过比较电击各组不同波段原始光谱数据不同的预处理方法,实现了对上述PLS-DA模型的进一步优化。经过对比,综合分析认为经OSC预处理的3600~2800cm-1波段建模效果较好,具有较好的稳定性及预测能力,能够明显改善上述1800~1000cm-1波段原始光谱PLS-DA存在的不足。提示经OSC预处理后3600~2800cm-1波段数据能够用于不同电压电击组的鉴别,而且该预处理方法在优化模型效能方面具有独特的优势,这是因为相较于其他信号校正技术,OSC可高效地对噪声进行滤除,提高机器学习模式识别的分类效果,并在模型拟合时提高模型的有效性[20-21]。此外,从该模型的聚类得分图中可以看出,电击各组沿变量1坐标轴方向具有一定的分布规律性,提示OSC在规范数据内在特征结构方面亦具有一定的优势。同时,这也为后续研究提供了一定的方向,结合相关分子生物学方法,明确变量1载荷数据点对应的大分子物质并进行特异性筛选,最终寻找可用于法医学实践中鉴别不同电压皮肤损伤的生物学指标。

本研究运用FTIR-MSP成像技术初步探讨了猪皮肤不同电压电流损伤的生物光谱学特征,同时结合相关机器学习算法,通过建立预测数学模型用于诊断不同电压所致皮肤电流损伤,为法医病理学实践提供了新的思路。后续研究将在本研究的基础上,进一步观察电流损伤与其他常见皮肤损伤(如擦伤、烧伤及烫伤等)的鉴别。

猜你喜欢
电击波段预处理
户外照明电击防护的几点建议
超级电击武器
基于PLL的Ku波段频率源设计与测试
小型化Ka波段65W脉冲功放模块
基于预处理MUSIC算法的分布式阵列DOA估计
草菇电击法遗传转化的研究
M87的多波段辐射过程及其能谱拟合
电击武器的非致命效应研究
浅谈PLC在预处理生产线自动化改造中的应用
络合萃取法预处理H酸废水