邓 悦 王亚平 张 毅
(1.锦州医科大学公共基础学院医学物理教研室 锦州 121013;2.大连理工大学物理与光电工程学院 大连 116024)
当前对于人类健康威胁最大的是癌症,其中占第一位的是肺癌[1],女性第一位的是乳腺癌[2]。现在对肺癌和乳腺癌的筛查检测方法中,有血清免疫学方法等,但都不够理想,尤其对肺癌、乳腺癌早期的检测很困难,尚无令人满意的方法。
表面增强拉曼光谱在用于检测时,具有所需样品少和无损伤的特点,同时对于具有拉曼活性的物质具有高选择性[3],所以可以用该方法进行癌症或其他疾病的检测。目前,已有很多文献报道了拉曼光谱在疾病检测上的应用[4]。
在血清SERS光谱分类分析方法中,常用的是主成分分析法[5],并且该方法也已发展的较为成熟。此外还有聚类分析法,聚类分析作为一种有效的数据分析工具,已广泛地应用于图像处理、信息检索、数据挖掘等领域[6],近来大连理工大学的马辉[7]已将该分类方法应用到血清光谱的分析中。
本文主要对三类血清(35例健康人、58例乳腺病患者及43例肺癌患者)进行拉曼光谱检测,所得的数据经过一定的预处理之后,对其分别进行主成分分析和聚类分析,并对分析结果进行比较,为下一步找出更适合血清SERS光谱分类分析方法提供有用的参考。
(1)实验仪器:RENISHAW(INVIA)拉曼光谱仪、电子分析天平、磁力加热搅拌器、离心机、微波炉、超声波振荡器等。
(2)实验条件:用半导体硅片(520 cm-1)定标,血清拉曼光谱检测扫描范围为300~2200 cm-1。
(3)实验试剂及样品:柠檬酸三钠、硝酸银、去离子水及血清样品(健康人35例,乳腺病58例,肺癌43例)。
(1)纳米银胶的制备:采用微波法制备纳米银胶,并用离心方法,清洗3次,待用。
(2)待测血清样品的配置:将上述离心清洗后的纳米银胶和待测的血清样品按照1∶1混合,振荡1h。
(3)血清SERS光谱数据采集:将配置好的血清样品放在拉曼光谱仪的样品池内,进行数据的采集,每个血清样品测量10个测试点,平均取值。
(1)去直基线处理:光谱的基线应是一条平的、值为零的直线,但实验中所测得的光谱数据由于荧光的作用使得基线漂移。选择725 cm-1底部的点和1825 cm-1对应拉曼值的点做直线,进行去直基线操作。图1为去直基线前和去直基线后的对比图。
(2)血清SERS光谱的特征峰分析和挑选:对这三类样品谱线分别求平均谱,然后让725 cm-1处谱峰等高,见图2。
挑选出相对强度相差较大的峰位进行分类分析(主成分分析和聚类分析)。经对比挑选出636 cm-1,805 cm-1,945 cm-1,1017 cm-1,1135 cm-1,1330 cm-1,1399 cm-1,1453 cm-1,1620 cm-1,1688 cm-1这10处特征峰。由于725 cm-1峰位所对应的物质含量几乎保持不变,所以选择725 cm-1作为内标,将其余光谱强度与内标强度做比,即得到相对强度为:
计算得出各个所选峰位的相对强度,进行血清SERS光谱的分类分析(主成分分析和聚类分析)。
(1)主成分分析
主成分分析是把原来多个具有相关性的变量化为少数几个互不相关的综合指标的一种统计分析方法。在实际问题中,一般挑选前几个方差最大的主成分(累积方差贡献率在85%以上),这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
R软件(http://cran.r-project.org/)是一款免费且功能强大的软件,它可以方便快捷地完成主成分分析的计算,并且有很高的计算精度。在R软件中分析血清SERS光谱,令
X1=I1688/I725; X2= I1620/I725;X3= I1453/I725;X4= I1399/I725;X5= I1330/I725;
X6= I1135/I725;X7= I1017/I725;X8= I945/I725;X9= I805/I725;X10= I636/I725。
将136例样品(健康人35例、乳腺病患者58例及肺癌患者43例)的X1-X10计算出来,在R软件中用主成分分析函数处理数据,输出结果为:相关矩阵的特征值为7.137701817,2.36205964,0.331981566,0.070359627,0.029088945,0.025473953,0.016674982,0.012028573,0.008496586,0.006134312,前两个主成分的累积方差贡献率为95%。
从输出的结果可以看出,前两个主成分的累积方差贡献率超过了85%,由此可以选择前两个主成分C1和C2进行分析。最后计算前两个主成分的综合得分,在Matlab 2010b中画出C1关于C2的散点图,如图3所示。
图1 原始拉曼光谱与去直基线后拉曼光谱对比
图2 健康人、乳腺病患者及肺癌患者血清 SERS光谱的平均谱
图3 健康人、乳腺病患者及肺癌患者血清的主成分分析
通过主成分分析图可以看出,肺癌43例:正确率为100%,错判0例,似然比统计极大;乳腺病58例:正确率为84%,错判9例,似然比为5.7;健康人35例:正确率为91%,错判3例,似然比为10。
(2)聚类分析
聚类分析是指对一组数据的群聚结构在无任何先验知识时,根据样本间的距离与相似程度将样本分类。所谓聚类分析是把欲进行分类的对象作为样本,对这些样本进行量化分类。它的基本思想是计算样品(或变量)之间的间距,距离较近的分为一类。本文采用的是最常见的最短距离法和闵科夫斯基距离中的欧几里得距离(即欧氏距离)[8],其公式为(其中q=2):
本文使用Matlab R2010a软件对136例样品(健康人35例、乳腺病患者58例及肺癌患者43例),在300 cm-1~2200 cm-1波段的10个振动模式进行聚类分析,得到一个136×10的矩阵作为原始分析数据。分析的主要程序如下:
bx=zscore(x)对数据矩阵 X 进行标准化处理y=pdist(x)计算数据集合中两两元素间的距离(向量)d=squareform(y)将距离的输出向量形式定格为矩阵形式z=linkage(y)连接数据集中的目标为二元群的层次树[h,t]=dendrogram(z)输出系统树状图
输出的结果如图4所示(其中1~35号为健康人,36~93号为乳腺病患者,94~136号为肺癌患者),图中红色折线为分类的临界处:第一条折线左侧为健康类人群(编号1~35),折线右侧为乳腺病人群(编号36~93),第二条折线右侧为肺癌人群(编号94~136)。
通过聚类分析图可以看出,健康人35例:正确率为100%,错判0例,似然比统计极大;乳腺病58例:正确率为86%,其中错判8例乳腺病为肺癌,似然比为7.4;肺癌43例:正确率为100%,其中错判8例乳腺病为肺癌,似然比为5.3。
图4 健康人、乳腺病患者及肺癌患者血清的聚类分析
主成分分析:肺癌与乳腺病、健康人均可以完全区分,乳腺病的9例和健康人的3例,相互错判。正确率:肺癌100%,乳腺病84%,健康人91%。
聚类分析:健康人与乳腺病、肺癌可以很好的区分,其中误判率:健康人为0;乳腺病为14%;肺癌为19%。
从主成分分析和聚类分析的结果来看,肺癌、乳腺病及健康人三者分类的正确率均处在84%~100%之间;误判率均处在19%~0%之间。由以上结果可以说明:肺癌和乳腺病的拉曼筛查的原理已经过关,可以应用主成分分析和聚类分析实现对血清SERS光谱的分类分析。