支持向量机的法医学应用

2017-09-11 10:37宫春妮
中国刑警学院学报 2017年4期
关键词:超平面法医学线性

李 军 巢 雯 宫春妮

(中国刑事警察学院法医学系 辽宁 沈阳 110035)

支持向量机的法医学应用

李 军 巢 雯 宫春妮

(中国刑事警察学院法医学系 辽宁 沈阳 110035)

支持向量机(SVM)因其在高维、非线性数据分类与推测中的出色综合性能表现,已在各个学科领域中得到了广泛应用,国外许多研究者将其应用于法医学研究。目前SVM在法医学分类问题中(如性别判定、种族判定等)得到了广泛的应用并取得较好效果,将SVM与其他数据分析技术结合(如主成分分析法等)有望用于连续变量推断(如死亡时间推断、年龄推断等)问题中。同时,根据不同研究目的,运用恰当的先进数据挖掘与分析技术,可以为大数据背景下法医学研究提供新的思路和方法。

支持向量机 种族断定 容貌复原 毒物分析 性别判定

1 引言

法医学作为一门应用型学科,其致力于解决的问题从技术层面上来说许多属于分类和推测问题。分类就是应用已知的一些属性数据去推测一个未知的离散型的属性数据,如种族判定、性别判定等。推测就是应用已知的一些属性数据去推测一个未知的连续型的属性数据,如年龄推断、死亡时间推断等。随着研究的不断深入和技术手段的不断更新,研究者们针对不同问题分别发现了许多有价值的解决方法。尽管对于不同方法的准确性存在争议,但绝大多数研究者都认为综合考虑所有潜在因素的影响是达到准确的最佳方法。一旦考虑多个变量时,数据维度增加,数据量成倍增长,传统的线性回归技术将不足以得到理想的结果,我们需要构建更有效的分类和推断模型。支持向量机(Support Vector Machine,SVM)方法因其出色的综合性能引起了研究者们的广泛兴趣和关注,国外已有许多应用于法医学研究的报道。本文通过对SVM及其在法医学研究中的应用作以综述,探讨大数据背景下法医学研究的新思路和新方法。

2 支持向量机简介

2.1 概念及原理

支持向量机[1]107由Cortes&Vapnik于1995年首先提出,可很好地解决非线性及高维数据识别分类问题。SVM作为数据挖掘的一种算法,在实践中与其他算法比较时总能表现出更好的性能和效果,因为SVM在原理和方法上是一个根本性地解决方案,给出的是全局最优解,而如决策树[2]、神经网络[3]等通常给出的是一个局部最优解。

图1为支持向量机原理图,它代表一个数据集,圆圈和五角星分别代表两类数据,C1和C2是两个分类宽度不同的分类超平面。在图1所包含的两类数据之间,我们的目标是寻找一条线,能将两类数据完全区分开来。这样的线在SVM中被称为超平面,即在高维的空间中将数据分类切割的平面。SVM的思想就是找到这样的一个平面,它既能将两类数据毫无偏差的分开,又使分类间隔最大[4]。从图1中我们可以找到许多平面将两类数据完全分开。C1和C2是其中两个。将C1向左平移到圆圈数据的最右边,向右平移到五角星数据的最左边,即得到C1的分类宽度。同样的方法可得到C2的分类宽度,显然,C1分类宽度>C2分类宽度,那C1就是我们要找的SVM分类器。

2.2 线性SVM

线性SVM又可分为线性完全可分SVM和线性不可分SVM。它们都是基于线性空间进行分类的。线性完全可分SVM是一种理想的分类器,它可以完全正确地将数据分为两类。但在实际过程中更多地情况是,我们找不到一个超平面可以将样品集完全正确地分类。即使找到一个线性完全可分超平面,但它的分类宽度可能很小,这类分类器在对将来未知的数据进行分类时,决策边界任何轻微的干扰都会对分类效果产生很大的影响,我们称之为过度拟合。因此我们更倾向于选择一个虽然有一定误差,但具有更大分类宽度、抗干扰能力更强的超平面分类器,我们称之为线性不可分SVM。我们可以放宽正确分类的条件,只要这些样本点落在能够被正确分类点的附近,就认为这个样本点能够被“正确”分类[1]109-112,并且引入松弛变量和惩罚因子得到最优的分类判别函数。

图1 支持向量机原理图[1]108

图2 线性不可分支持向量机示意图[1]108

图2为线性不可分支持向量机示意图,它代表一个数据集,圆圈和五角星分别代表两类数据,两类数据交叉分布,C1和C2为两个分类宽度和分类误差不等的分类超平面。图2中,超平面C1和C2具有不同的分类误差和分类宽度。在很多实际情况中,数据集就像图2显示的两类数据在中间部位存在许多交叉,此时我们需要寻找一个分类宽度和分类误差均衡的分类器,它既具有较好的分类准确性,又具有较强的抗噪声能力,避免过度拟合现象。我们根据不同的分类目的,按照分类目标所要求的不同分类准确率和成本来决定选用C1还是C2。

2.3 非线性SVM

在实践过程中,更多的情况需要我们在非线性空间下进行数据分类。目前尚没有可以直接处理非线性数据分类的SVM算法,因此,我们需要应用映射函数,将非线性数据映射到一个高维特征空间中,在此高维空间中构建最优超平面,使用线性SVM进行分类。将非线性空间映射为线性空间,需要利用核函数的支持。

图3 二维非线性数据映射示意图①July.支持向量机通俗导论(理解SVM的三层境界)[EB/OL].(2012-06-01)[2016-11-25].http://blog.csdn.net/v_july_v/article/details/7624837.

图3为二维非线性数据映射示意图,它代表一个数据集,其中,三角形和五角星分别代表两类数据;左侧为数据在二维中的分布,右侧为数据经过映射升至三维后的分布。图3中,左边二维数据集理想的分类器应是一曲线,但将其映射至右边的三维空间时,即可找到一个线性超平面C将两类数据准确的分开,将数据从低维映射到高维即经过一个核函数的运算过程,考虑到推广性问题,我们仍引入松弛系数和惩罚因子两个参变量进行校正。在确定核函数的基础上,经过大量对比试验取定系数,应用于相关学科的研究。

3 法医学研究应用实例

3.1 种族判定与祖先推断

在暴力型犯罪中,现场常留下来自犯罪嫌疑人的生物检材尤其以血液最为常见,具有很高的法医学价值,但检材量通常极其微小。因此,在微量的检材中发掘尽可能多的生物信息,要求研究者们探索更适合的无损分析方法。拉曼光谱分析法作为一种出色的分子结构研究方法已被用于许多法医检材分析,如射击残留物[5]、骨骼[6]等。Ewelina等[7]收集了10例平均年龄为45±8.4岁的高加索人(CA)和10例平均年龄为43.8±7.2岁的美国黑人(AA)志愿者的血样,并利用拉曼光谱对每个样本的9个点分别进行分析,发现不同种族血液各成分的组成含量存在差异,进而利用SVM建立分类模型,对样本经拉曼光谱分析得到的数据进行分类分析,获得了83%的正确率。该研究初步表明了在血痕不被破坏的条件下利用SVM等先进的统计技术进行种族判定的可能性,并有望用于真实的犯罪调查。

Hefner等[8]选取8个颅面性状(鼻前棘、下鼻孔径、眶间宽、鼻孔径宽度、鼻骨结构、鼻过度生长、前囟凹陷、颅颧上颌缝)作为评估指标,并根据形态分别赋分,探索运用大数据统计方法进行种族分类、进一步用于祖先推断的方法。他们收集了共542例样本(72例来自西南亚、106例来自危地马拉,146例来自美国黑人,218例来自美国白人),将他们的数据输入系统,每个样本即形成一个八维数据,然后利用SVM方法对其中20%的样本进行分析,利用核函数方法进行映射,并确定松弛系数和惩罚因子,建立了推断模型。然后将剩下的80%数据用于测试推断模型的准确性,结果显示SVM方法可以有效地区分以上人种,准确率均达90%以上,在数据库更完整的条件下有望用SVM方法进行祖先推断。

1963年,线粒体DNA(mtDNA)首次被证实存在。与核DNA相比,mtDNA有其独特的遗传特征——母系遗传,因此父、母系的线粒体很少混合也不会发生重组,在进化过程中不同位点发生突变,这些突变被分为不同的单倍型。随着测序技术的应用,从mtDNA单倍型进行祖先推断成为研究热点[9]。Carol Wong等[10]收集了21141个mtDNA序列样本,并根据在mtDNA高变区(HVR)545个是否存在单核苷酸缺失将样本数据转化为二进制,然后应用RF和SVM两种分类算法进行分类,SVM显示了较高的准确性。Chih Lee等[11]将SVM应用于FBI、文献报道的分别为4426、3976个线粒体DNA高变区序列样本数据,这些样本主要来自于4个人种:高加索人、非洲人种、亚洲人种、西班牙人种,通过线粒体DNA高变区序列差异应用分类技术区分人种,结果显示SVM优于所有其他分类方法,准确性高于90%。研究还确定了之前文献报道的与人种显示很好相关性的mtDNA高变区片段[10],基于此结果,SVM方法有望应用于DNA序列其他分类。

3.2 容貌复原

下颌骨在法医学面部容貌复原中具有重大意义,但在白骨化后容易遗失。通常研究者们通过以颅底为参考平面的ANB角将上下颌骨矢量对位关系分为Ⅰ、Ⅱ、Ⅲ类。但在目前的复原技术中通常默认为Ⅰ类,而未考虑Ⅱ、Ⅲ类时的情况。Tania等[12]收集了229例(95例女性、134例男性)年龄介于18~25岁个体的头颅侧位片,选取10个特征点,利用线性SVM将其中70%个体数据用于构建分类模型,并确定松弛变量为9.0,剩下的30%样本用于测试分类的正确性,结果显示SVM可以建立有效的分类模型,准确率在74.51%。并且该研究还提出可利用SVM等技术通过对颌颅关系的分析推断ANB角,从而更准确地区别个体骨面型,使容貌复原更为精确可信。

3.3 毒物分析

Marcelo等[13]用傅里叶-红外光谱法分析可卡因成分,他们根据可卡因分别与咖啡因、利多卡因、非那西汀的15种混合方案,对513例混合样本进行傅里叶-红外光谱分析,并将分析的数据应用SVM进行盐性和碱性分类,最后利用层次聚类分析(HCA)和主成分分析法(PCA)对盐性和碱性分别进行成分分析,结果表明呈盐性的可卡因掺入了咖啡因和利多卡因,而当只掺入非那西汀时可卡因呈碱性。其中,SVM在分类过程中显示出了较好的准确性和稳定性。

毛发、血液和尿液作为传统的毒品检测检材,因其高灵敏度和高准确度而具有重要的法医学价值。但是进行这类检材的检测通常费时且成本较高。电子鼻技术因其快速、准确、成本低的优点应用于许多行业,Andreas等[14]因此开始探索它的法医学应用。他们将金属氧化物气体传感器与SVM分类技术结合,组成电子鼻通过对皮肤表面代谢的变化监测来确定是否吸食大麻。Andreas找到20例每天吸烟和20例一周至少吸食大麻1~2次的志愿者,并确保其在进行检测前的12h内未吸烟或大麻。实验者经过传感器对皮肤表面的检测得到了一组非线性数据,利用核函数映射至高维空间显示出了较好的线性,从而确定了最优超平面,并在松弛系数10和惩罚因子0.4的校正下成功将吸烟与吸食大麻分开,分类准确率高达92.5%,高于PCA的分类准确性(70%)。该研究表明吸食毒品也会使皮肤的代谢发生变化,通过电子鼻技术结合SVM算法有望用于该变化的监测,该方法具有高效、准确、节约成本、无损等优点。

3.4 死亡时间(PMI)推断

准确地推断死亡时间是法医学的一项重大任务。有研究表明人体死后玻璃体液中化学成分的变化与死亡时间存在相关关系[15-16]。于是许多学者利用传统的线性回归技术对其相关关系进行探究,有研究显示人体死后玻璃体液中钾、次黄嘌呤、尿素含量的变化与死亡时间具有较大的相关性,但进一步将得到的推测方程应用于真实数据时结果并不准确,因此,Jos’e 等[17]提出在各影响因素之间存在复杂的关系,需要用更灵活的方法分析数据,他们将传统的线性回归技术与SVM方法相结合,应用于201例已知准确死亡时间的样本数据上,通过函数映射,将数据升维,找到最优的相关性,结果显示通过SVM与线性回归技术结合建立的模型具有更好的抗噪能力,且有望用于更多影响死亡时间推断因素的综合分析,如环境温度和尸温等。

3.5 性别判定

Effendi等[18]利用光谱学方法进行了性别判定的研究。他们对男女手指指甲进行拉曼光谱分析,结果提示男女手指指甲分子结构存在差异。实验收集了240个样本的光谱数据,其中120个来自男性指甲,120个来自女性指甲。利用SVM和PCA结合的方法对数据内在相关性进行挖掘,从而研究光谱分析结果与性别的相关性。即利用径向基核函数(RBF)将数据映射至高维空间,由于男女差异较小,利用PCA方法放大这些差异,两者结合得到了很好的分类效果,准确率达90%。

3.6 理论研究

Alexander等[19]对8个具有不同分类目的的数据集(主要用于躯体定位和组织分类)上分别应用了18种分类算法,结果表明SVM具有较高的准确性和稳定性。同时提出随着第二代DNA测序技术的发展,在测序成本降低、输出数据庞大的形势下,具有良好分类效能的数据分析技术(如SVM等)有望用于法医学的理论研究,如控制性状的基因定位、基因的连锁表达等。

4 小结与展望

随着研究的深入和先进技术手段的应用,法医学研究逐渐从定性向定量发展,随之带来的是庞大、复杂的数据处理问题。SVM因其出色的分类及预测等综合性能广泛应用于医学图像分割[20]、医学影像特征提取[21]、疾病诊断[22-23]等,显示出其在生物学领域中巨大的应用前景,因而国内外许多法医学研究者开始探索SVM在法医学中的应用。国内王亚辉等[24]运用支持向量机建立了骨骺发育分级的自动化评估模型,郭莉萍等[25]利用近红外光谱(NIRS)结合支持向量机(SVM)模式识别原理建立了微卫星(短串联重复序列,STR)的分型方法,这些国内外研究者的实践都进一步证实SVM可有效地应用于法医学鉴定。SVM通过算法本身对研究对象有关因素构成的多维数据进行映射,构建分类最优超平面,并且当用于构建分类平面的样本越多时,为避免过度拟合,系统通过引入松弛系数可建立抗噪能力更强的分类超平面,当未知样本的数据输入时,算法的结果倾向于接近相似的已知样本,从而达到分类的目的。在用SVM进行分类时,与传统的线性技术相比,它不要求研究对象与影响因素间存在先验的线性关系,即通过核函数方法SVM理论上可以实现对所有非线性数据的分析与分类,且通过综合考虑更多的影响因素,甚至综合不同学科的研究成果,利用正确的已知样本数据构建分类超平面,实现分类的自动化,很大程度上避免了法医学鉴定中主观因素的不当影响。目前SVM在法医学分类问题中得到了广泛的应用并取得较好效果,但在连续变量推断,如死亡时间推断、年龄推断等问题中的应用未见明显成效,但许多研究提示将SVM与其他数据分析技术,如主成分分析法(PCA)[26]、非线性降维技术(NLDR)[27]等结合有望得到较好的结果。

单独个体高维数据的收集为研究带来更大的价值,算法将这些分布与关系发现并展示出来,但却并没有进一步说明为什么这样。大部分的输出结果还是一种现象级的规律。随着数据越来越丰富,算法越来越发展,一边使用规律一边发现其因果关系将是大数据时代知识的使用方式。但先进的数据分析技术理论研究却显然领先于其应用研究,数据时代的到来让越来越多的法医学研究者认识到学习和使用先进的数据挖掘和分析技术进行研究的重要性。根据目的的不同选择恰当的数据处理技术往往可以达到事半功倍的效果,例如,当进行活体年龄推断用于刑事责任能力判定时,我们并不需要将年龄精确到某年某月某天,而只需将18岁以下与18岁以上的个体区分开来,此时运用分类性能较好的数据挖掘和分析技术(如SVM等)将比运用特征分析技术更准确方便。同时,我们也鼓励研究者们将各种先进的算法应用于自身收集的真实数据,根据综合不同影响因素得到的结果,探索最优的影响因素,综合用于实际的方案,并进一步探索影响因素之间的相关关系。相信在不久的将来,随着各类算法的不断深入,以及研究者对其掌握并恰当应用,定能使包括SVM在内的许多先进的数据挖掘与分析技术在法医学领域发挥更大的价值。

[1]洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014:107-112.

[2]杨静,张楠男,李建,等.决策树算法的研究与应用[J].计算机技术与发展,2010(2):114-120.

[3]毛健,赵红东,姚婧婧.人工神经网络的发展与应用[J].电子设计工程,2011(24):62-65.

[4]陈工孟.大数据导论[M].北京:清华大学出版社,2015:204-206.

[5]López-LópezM,MerkV,García-RuizC.et al. Surface-enhanced Raman spectroscopy for the analysis of smokeless gunpowders and macroscopic gunshot residues[J].Analytical and Bioanalytical Chemistry,2016(18):1-9.

[6]Sterzik V, Jung T, Jellinghaus K, et al.Estimating the postmortem interval of human skeletal remains by analyzing their optical behavior.[J].Deutsche Zeitschrift Für Die Gesamte Gerichtliche Medizin,2016(6):1-10.

[7]Mistek E,Halámková L,Doty K C,et al.Race Differentiation by Raman Spectroscopy of a Bloodstain for Forensic Purposes[J]. Analytical Chemistry,2016(15):7453-7456.

[8]Hefner J T,Pilloud M A,Black C J,et al.Morphoscopic Trait Expression in "Hispanic" Populations.[J]. Journal of Forensic Sciences,2015(5):1135-1139.

[9]Behar DM,Rosset S,Blue-Smith J,et al. The Genographic Project public participation mitochondrial DNA database[J].PLoS genetics,2007(6):1083-1095.

[10]Wong C,Li Y,Lee C,et al.Ensemble learning algorithms for classification of mtDNA into haplogroups[J].Briefings in Bioinformatics,2011(1):1-9.

[11]Lee C,Mandoiu I. I.,Nelson C E.Inferring ethnicity from mitochondrial DNA sequence[J].BMC Proceedings,2011(2):1-9.

[12]Tania Camila Nino-Sandoval,Sonia V. Guevara Perez,et al.An automatic method for skeletal patterns classification using craniomaxillary variables on a Colombian population[J].Forensic Science International,2016,261:159.e1-159.e6.

[13]M.C.A Marcelo,K.C. Mariotti,et al.Profiling cocaine by ATRFTI[J].Forensic Science International,2015,246:65-71.

[14]Andreas Voss,Katharina Witt,Tobias Kaschowitz,et al.Detecting Cannabis Use on the Human Skin Surface via an Electronic Nose System[J].Sensors,2014(7):13256-13272.

[15]Koopmanschap DH,Bayat AR,Kubat B,et al.The radiodensity of cerebrospinal fluid and vitreous humor as indicator of the time since death[J].Forensic Sci. Med. Pathol.,2016(3):248-256.

[16]Zilg B,Bernard S,Alkass K,Berg S,Druid H.A new model for the estimation of time of death from vitreous potassium levels corrected for age and temperature[J].Forensic Science Internatio nal,2015,254:158-166.

[17]Jos’e Ignacio,et al.Flexible regression models for estimating postmortem interval(PMI)in forensic medicine[J].Statistics in Medicine,2008(24):5026-5038.

[18]Widjaja E,Lim G H,An A.A novel method for human gender classification using Raman spectroscopy of fingernail clippings. [J]. Analyst,2008,133(4):493-498.

[19]Alexander Statnikov,Mikael Henaff,Varun Narendra,et al. A comprehensive evaluation of multicategory classification methods for microbiomic data[J].Microbiome,2013(1):1-12.

[20]周恩.基于模糊支持向量机的医学图像分割算法研究[J].电子技术与软件工程,2015(22):91-93.

[21]Yu S,Tan K K,Sng B L,et al.Lumbar Ultrasound Image Feature Extraction and Classification with Support Vector Machine.[J]. Ultrasound in Medicine & Biology,2014(10):4659-4662.

[22]章鸣嬛,陈瑛,沈瑛,等.人工神经网络和支持向量机性能比较及其在DMD疾病识别中的应用[J].上海理工大学学报,2016(4):346-351.

[23]Arsanjani R,Xu Y,Dey D,et al.Improved Accuracy of Myocardial Perfusion SPECT for the Detection of Coronary Artery Disease by Utilizing a Support Vector Machines Algorithm[J].Journal of Nuclear Medicine Official Publication Society of Nuclear Medicine,2013(4):549-555.

[24]王亚辉,王子慎,魏华,等.基于支持向量机实现骨骺发育分级的自动化评估[J].法医学杂志,2014(6):422-426.

[25]郭莉萍,徐容,任丽,等.近红外光谱结合支持向量机对STR基因座的化学模式识别分型[J].理化检验:化学分册,2010(7):728-731.

[26]Sato T,Zaitsu K,Tsuboi K,et al.A preliminary study on postmortem interval estimation of suffocated rats by GCMS/MS-based plasma metabolic profiling.[J].Analytical and Bioanalytical Chemistry,2015(13):3659-3665.

[27]Lefèvre T,Chariot P,Chauvin P.Multivariate methods for the analysis of complex and big data in forensic sciences. Application to age estimation in living persons[J].Forensic Science International,2016,266:581.e1-581.e9.

(责任编辑:孟凡骞)

R319;TP391

A

2095-7939(2017)04-0096-05

10.14060/j.issn.2095-7939.2017.04.019

2016-12-01

李军(1957-),男,辽宁沈阳人,中国刑事警察学院法医学系教授,主要从事法医物证学研究。

猜你喜欢
超平面法医学线性
基于非线性核的SVM模型可视化策略
全纯曲线正规族分担超平面
书 讯
有限维Banach空间中完备集的构造
线性回归方程的求解与应用
我国法医学人才培养发展战略研究
留学教育与近代法医学的建立
二阶线性微分方程的解法
非齐次线性微分方程的常数变易法
关于我国法医学人员培养制度的困境与改革