孙雨航,许楚楚,徐 闯,李昌盛,吴 凌,夏 成
(黑龙江八一农垦大学动物科技学院,黑龙江 大庆163319)
近年来,随着科学技术的不断创新,各种组学(Omics)技术应运而生。1999年Nicholson首次给出了代谢组学(Metabolomics)的完整定义,是研究在内、外因素作用下,生物体所含内源性小分子代谢物(相对分子质量小于1 000)在种类和数量上的动态变化规律以及生理、病理变化的一门技术[1]。代谢组学主要包括3个检测平台,分别为气相色谱质谱联用,液相色谱质谱联用和核磁共振技术(nuclearmagnetic resonance,NMR)。其中,NMR已被广泛应用于生命科学的各个领域。
从生物学角度来说,生物种类繁多,内源性代谢物浓度差异很大,浓度高的代谢物不一定比浓度低的代谢物更重要,而某些浓度非常低的代谢物在某些生理过程中恰恰不容忽视[2],所以为了保证所有的化合物在无偏性NMR检测后能够得到公平的分析,就需要对图谱数据进行标准化,主要包括归一化、中心化和尺度方差规模化。
目前常规使用的数据预处理软件是Topspin(Bruker GmBH,Karlsruhe,Germany)和MestReNova(Mestrelab Research,Santiago de Compostela,Spain)。在Topspin软件中,所有原始谱图自动进行分段积分,手动调零、校正基线和相位;在MestReNova软件中,原始谱图被保存为包含所有代谢物化学位移的“txt”文本,用于后续统计分析。
为了从大量的NMR数据中得到有价值的代谢物,需要运用降维思想,借助多变量模式识别[3]。目前,常用的模式识别软件通常是昂贵的商用软件或者内部教学软件,主要包括SMICA(Umetrics,Umeå,Sweden)和R语言(www.R-project.org),前者最为常见,操作简便且智能化,但是分析模式较少;后者指令复杂,需要专业人员操做,但是模式识别种类较多。最近,研究学者又提出了一种新的核磁数据处理软件MVAPACK,它可以完成数据预处理、模式识别和模型验证的整个过程,并已通过实践检验,相信不久的将来许多研究学者可以通过应用免费软件亲自进行数据分析。
PCA类似于聚类分析,是一种无师监督分析方法。从数学角度来说,PCA是一种高纬数据降纬的方法,就是将分散在一组变量的信息集中到某几个综合指标(主要成分)上[3],从而利用主要成分提取数据集的特征,形成一个二维或三维的得分图[4]。从生物学角度来说,PCA就是在不分组的情况下,从整体上来描述样品的离散趋势[5]。
在PCA得分图中,通常以前两个主成分(PC1、PC2)为参数构建模型,主成分后的数值代表此成分对于模型分组的贡献率,数值越大表示其对分组的主导作用越大。通常,所有的样品都将呈现在一个95%的置信区间中,区间以外的样品被视为异常值。需要注意的是,对于异常值的处理,需要进行异常值检测[6],建立离群模型[7],综合考虑分析结果及其生物学意义,再决定是否剔除。因此,当样品组间差异较大,组内差异较小时,PCA可以很好地区分不同组样品。但是,当组间差异较小,组内差异较大(组内差异变量甚至大于样本含量)时,样本含量较大的一组将会主导模型,无法呈现组间差异,需要进行有师监督的模式识别来凸显组间差异。
PLS-DA是一种有师监督分析方法(可以通过多次练习达到最佳效果),通过利用已知样品分组信息对多变量数据进行归类、识别和预测[8]。从模型构建上来说,PLS-DA是对PCA模型的延伸,在PCA模型不分组的基础上利用虚拟变量分组,人为地将组别定义为Y变量,从而凸显组间差异。
此外,PLS-DA模型还是一种线性分析法,其优势就在于其可以结合载荷图筛选出代谢物差异[9],鉴别生物标记物[10]。PLS-DA模型也存在自身局限性,因为多变量和偏差系数的存在可能使其忽视真正的相关变量[11]。
OPLS-DA的构建就是为了对PLS-DA进行修正,通过移除与Y变量(分组)无关的X变量从而最大化组间差异,也可以将其看做一个纯粹的数据预处理过程,或者是一个具有正交变量优势的简单PLS-DA模型[11]。
与PLS-DA模型相同,在OPLS-DA模型中,参数R2表示模型的解释率,Q2表示模型的预测率,R2和Q2的比值越接近于1表示模型越可靠。
OPLS-DA模型验证包括:内部验证,7倍交差验证和1 000次(200次)排列验证;外部验证:应用受试者工作特征(ReceiverOperating Characteristic,ROC)曲线确定生物标记物的准确性、敏感性和特异性[12]。
对于筛选生物标记物,则需要结合载荷图、S图、皮尔逊相关系数,单因素方差分析和学生t检验的P值等,来确定差异代谢物,然后进行代谢物通路分析,最终完成生物标记物的鉴定。条件允许的情况下,还可以进行生物标记物的相关性分析,甚至计算临界值[13]。
OSC被认为是一种基于PLS模型的数据过滤处理技术,能够移除与Y响应矩阵不相关的X矩阵,从而使基于相关性X矩阵的PLS模型能够更加专一地分析有意义变量。有报道指出,OSC-PLS-DA就是在PLS-DA[14]或OPLS-DA[15]基础上结合正交信号修正过滤器所建立的分析模型,并且OSC还可以对PCA模型[16]或NMR光谱[17]进行优化。在OSC-PLS-DA模型中,OSC可以等于0,1,2,3···,直到PLS-DA模型最佳为止,通过一次次去掉与模型分组无关的潜在变量,达到最大化组间差异的目的。
核磁数据预处理是保证所有数据能够被公平地进行多变量模式识别的基础;PCA是首要的,是对所有变量的无偏性呈现,能够使人们从整体上把握样品水平;而其他3种方法是平行的,互相之间有比较也有优化,都能够直接应用于筛选生物标记物。在应用时需要根据样品组成选择合适的模式识别,使之既不过于复杂又能获得理想效果。
[1]Nicholson J K,Lindon J C,Holmes E.'Metabonomics':understanding themetabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data[J].Xenobiotica,1999,29:1181-1189.
[2] 王敏,黄寅,张伟,等.代谢组学信息获取与数据预处理瓶颈问题探讨[J].药学进展,2014,38(2):81-88.
[3] O'Connell TM.Recent advances in metabolomics in oncology[J].Bioanalysis,2012,4:431-451.
[4] Solanky K S,Bailey N J,Beckwith-Hall B M,et al.Application of biofluid<sup>1</sup>H nuclear magnetic resonance-based metabonomic techniques for the analysis of the biochemical effects of dietary isoflavones on human plasma profile[J].Analytical biochemistry,2003,323:197-204.
[5] Sun Y,Lian Z,Jiang C,et al.Beneficial Metabolic Effectsof 2′,3′,5′-tri-acetyl-N6-(3-Hydroxylaniline)Adenosine in the Liver and Plasma of Hyperlipidemic Hamsters[J].PloSone,2012,7:e32115.
[6] Rousseeuw P J,Hubert M.Robust statistics for outlier detection[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2011,1:73-79.
[7]Hubert M,Rousseeuw P J,Vanden Branden K.ROBPCA:a new approach to robustprincipal componentanalysis[J].Technometrics,2005,47:64-79.
[8] Worley B,Halouska S,Powers R.Utilities for quantifying separation in PCA/PLS-DA scores plots[J].Analytical biochemistry,2013,433:102-104.
[9]Li M,Wang J,Lu Z,et al.NMR-based metabolomics approach to study the toxicity of lambda-cyhalothrin to goldfish(<i>Carassius auratus</i>)[J].Aquatic Toxicology,2014,146:82-92.
[10]Madsen R,Lundstedt T,Trygg J.Chemometrics in metabolomicsa review in human disease diagnosis[J].Analytica Chimica Acta,2010,659:23-33.
[11]Sadeghi-Bazargani H,Bangdiwala S I,Mohammad K,et al.Compared application of the new OPLS-DA statistical model versus partial least squares regression to manage large numbers of variables in an injury case-control study[J].Sci Res Essays,2011,6:4369-4377.
[12]Banday K M,Pasikanti K K,Chan E C Y,et al.Use of urine volatile organic compounds to discriminate tuberculosis patients from healthy subjects[J].Analytical chemistry,2011,83:5526-5534.
[13]Zhang A,Sun H,Han Y,etal.Exploratory urinarymetabolic biomarkers and pathways using UPLC-Q-TOF-HDMS coupled with pattern recognition approach[J].Analyst,2012,137:4200-4208.
[14]Lodi A,Tiziani S,Khanim F L,et al.Proton NMR-basedmetabolite analyses of archived serial paired serum and urine samples from myeloma patients at different stages of disease activity identifies acetylcarnitine as a novel marker of active disease[J].PloS one,2013,8:e56422.
[15]Davis V W,Schiller D E,Eurich D,et al.Urinary metabolomic signature of esophageal cancer and Barrett′s esophagus[J].World JSurg Oncol,2012,10:271-283.
[16]Gavaghan C,Wilson I,Nicholson J.Physiological variation in metabolic phenotyping and functional genomic studies:use of orthogonal signal correction and PLS-DA[J].FEBS letters,2002,530:191-196.
[17]Shariff M I,Ladep N G,Cox IJ,et al.Characterization of urinary biomarkers of hepatocellular carcinoma usingmagnetic resonance spectroscopy in a Nigerian population[J].Journal of proteome research,2010,9:1096-1103.