哈尔滨医科大学卫生统计学教研室(150086) 李俊南 侯 艳 孙凤宇 李 康
OPLS方法的原理及其在代谢组学数据判别分析中的应用*
哈尔滨医科大学卫生统计学教研室(150086) 李俊南 侯 艳 孙凤宇 李 康△
目的探讨orthogonal projection to latent structures(OPLS)方法的原理、特点及其在代谢组学高维数据分析中的应用。方法通过R语言编程实现OPLS方法,利用模拟试验探索OPLS的特性及适用条件,并通过实际数据进行验证。结果利用一个OPLS预测主成分的模型拟合效果与利用偏最小二乘(PLS)多个主成分的模型拟合效果相同,同时具有较好的判别能力,其得分图的可视化效果优于PLS。结论OPLS能够有效去除自变量矩阵X中与因变量Y无关的信息,使模型变得简单、易于解释,同时具有较好的可视化效果,可有效地用于代谢组学数据分析中。
orthogonal projection to latent structures(OPLS) 模型拟合 可视化 代谢组学
在代谢组学研究中,由色谱和质谱产生的高维数据可以应用偏最小二乘方法(partial least squares,PLS)进行分析,解决降维、分类可视化和特征筛选等问题[1-2]。然而,由于代谢组学数据中的很多代谢物质(包括物质的碎片)具有较高的相关性,且与分类无关,利用PLS法无法将分类的信息集中在前2~3个主成分中,结果使分类及可视化效果不好。Orthogonal projections to latent structures(OPLS)是一种新型的多元统计数据分析方法,它由Johan Trygg等人于2002年首次提出[3]。近十年来,这种方法在理论和应用方面都得到了迅速的发展,并在计量化学中有了大量的应用。OPLS是一种多因变量对多自变量的回归建模方法,其最大特点是可以去除自变量X中与分类变量Y无关的数据变异,使分类信息主要集中在一个主成分中,模型变得简单和易于解释,其判别效果及主成分得分图的可视化效果更加明显[4]。本文在简单介绍OPLS的基本思想和原理的基础上,通过模拟实验探索OPLS方法的适用条件,并利用实际数据进行验证。
1.基本原理
OPLS从给定的数据集X中移除系统正交变量,并把这些正交变量和非正交变量区分开来,可以对这些正交变量单独进行分析。OPLS方法利用响应变量Y中的信息把X分成三部分[4-5],即
其中,TP表示X的预测得分矩阵表示X的预测载荷矩阵表示预测部分,TO表示X与Y的正交成分(称为OPLS成分)的得分矩阵表示对应的载荷矩阵表示与Y正交的部分,E为残差矩阵。
OPLS方法的实现通过两步完成:
第一步,与Y正交的变量从X数据矩阵中剔除,即
其中T0是与Y正交成分的得分矩阵是与其对应的载荷矩阵。
第二步,对XP进行偏最小二乘分析。对于新的样本,需要先通过正交成分进行校正,再进行预测。
2.计算方法
文中仅介绍具有一个Y变量的OPLS算法[3],将原始变量进行中心化和标准化后,进行下列算法:
(1)wT=YTX/(YTY),计算X矩阵的权重向量;
(2)w=w/‖w‖,对权重向量进行归一化;
(3)t=Xw/(wTw),估计X矩阵的得分向量t;
(4)cT=tTY/(tTt),计算Y矩阵的载荷;
(5)u=Yc/(cTc),产生Y矩阵的得分向量;
(6)pT=tTX/(tTt),计算X矩阵的载荷;
(7)w⊥=p-[wTp/(wTw)]w,计算正交权重向量,这里p向量可以是任意与w维数相同的向量;
(8)w⊥=w⊥/‖w⊥‖,对正交权重向量进行归一化;
(12)保存T⊥=[T⊥t⊥],P⊥=[P⊥,p⊥]以及W⊥=[W⊥w⊥],需要求下一个正交成分返回到步骤(3),令X=Eopls,否则继续13步;
(13)对于新的样本(预测样本)通过校正模型的W⊥和P⊥来进行校正。
3.正交成分个数的确定
OPLS使用特征值判别方法和交叉验证方法[3],计算出正交成分和预测成分。特征值计算方法为
如果在X中没有正交变量,则λ接近0。λ值为正交成分个数的选取提供了重要的参考依据。
第二种方法使用k折交叉验证的方法,即将样本数据等分成k个部分选择使判别精度Q2最大的正交成分个数[6],其计算公式为
其中,Ym为每个样品的真实标签为k折交叉验证时测试样本中每个样品的预测值为测试样本中所有样品的平均值,预测残差平方和定量地衡量了样品预测值偏离真实标签的程度。联合使用特征值法和交叉验证方法是确定正交成分个数的最好的途径。
实验目的:通过模拟不同相关结构的高维数据,探索OPLS方法的特点及适用条件,并与目前在计量化学中经常使用的PLS方法进行比较。模型的拟合能力用相当于传统的多元线性回归的决定系数,计算使用的是全部样本数据。判别能力通过交叉验证得到的Q2(也记为Q2)统计量衡量,可视化效果通过主成分得分的散点图进行判断。OPLS的实现使用R语言编程[7]。
模拟实验1:根据代谢组学数据特点,通常呈偏态分布,并且包含有极端值,为此产生指数分布数据X。设有二分类的数据,其中有20个差异变量,在两个不同的分组中分别服从X~E(0.1)和X~E(0.3)的指数分布,加入1000个白噪声,噪声服从X~N(0,1)的正态分布,产生两个模拟数据集,第一个数据集噪声之间的相关性为0,第二个数据集中,将1000个噪声分为20组,每组50个噪声之间的相关系数设为0.1。重复试验1000次,结果显示:当噪声变量相关系数为0,利用PLS进行分析时,第一个主成分的Q2最大(Q2利用OPLS进行分析时,去除2个正交成分后的当噪声变量相关系数为0.1时,利用PLS进行分析,第一个主成分的利用OPLS进行分析时,去除1个正交成分后的Q2最大当噪声之间的相关系数为0,比较两种方法的得分图可以看出PLS的可视化效果与OPLS的可视化效果几乎相同(图1)。当噪声之间的相关系数为0.1时,得分图与图1相类似。说明在噪声变量间不相关或相关程度比较低的情况下,PLS利用一个主成分就能达到最大的Q2值,同时可视化效果较好,此时两种方法都可使用。
模拟实验2:模拟设定中有20个差异变量,在第一类中服从X~E(0.1)的指数分布;在第二类中20个变量服从X~E(0.19)的指数分布。加入1000个无差异变量作为干扰变量,噪声变量服从X~N(0,1)正态分布,并分为20组,每组50个变量的相关系数分别设为0.95和0.85,并同时设定相关系数为0,0.1,0.85,0.95四种非等相关结构构成的噪声,产生三个模拟数据。对上述模拟数据分别利用OPLS和PLS进行分析,计算出三种算法的值,以及各主成分的得分,通过绘制得分图的散点图进行可视化效果分析。上述方法重复试验1000次,得出平均和Q2值,结果见表1。
由表1可知,当相关系数ρ=0.95时,利用PLS进行分析,当取第一个主成分时,Q2值最大(Q2=-0.068),此时对于OPLS分析,去除5个正交成分后,Q2值最大通过比较两种方法的结果,可以看出OPLS方法利用1个预测成分能得到较高的Q2值,并使模型变得更加简单和容易解释。而PLS方法则完全失效,其Q2值均为负值。当相关系数ρ=0.85时,利用PLS进行分析时,其Q2值为负,利用OPLS进行分析时,去除6个正交成分时,Q2值最大,此时当同时设定4种非等相关结构时,利用PLS进行分析,当选择3个主成分时,Q2值最大0.878,利用OPLS进行分析时,去除4个正交成分时,Q2值最大,此时
图1 PLS方法前两个主成分得分图(A)和OPLS方法一个预测成分和第一个正交成分得分图(B)
表1 不同噪声相关系数时OPLS与PLS两种分析方法结果比较
图2 ρ=0.95时PLS方法前两个主成分得分图(A)和OPLS方法一个预测成分与第一个正交成分得分图(B)
进而,通过计算各成分的得分,绘制了两种方法的得分图。图2表示当相关系数ρ=0.95时,PLS中前两个主成分的得分图和前三个主成分的三维得分图,从图中我们可以看到PLS不能将两类完全分开,而利用OPLS方法,其得分图可以将两类完全分开(见图3),说明在此模拟研究条件下OPLS方法得分图的可视化效果明显优于PLS方法,可有效解决PLS的得分图不能将两类区分的问题。当相关系数ρ=0.85时,得分图与ρ=0.95时趋势相同。当同时设定4种非等相关结构时,得分图见图4,从图4(A)中可以看到利用PLS的前两个成分没有将两类完全区分开,利用OPLS的一个预测成分和4个正交成分中的第一个正交成分能够将两类完全分来(图4(B)),并且OPLS方法的判别能力高于PLS方法,证明在此种情况下,OPLS仍具有一定的优势。
图3 ρ=0.95时OPLS一个预测成分和第一个正交成分得分图
采用2009年9月至2010年5月期间在哈尔滨医科大学附属肿瘤医院收集的76例卵巢癌患者血浆样品和92例子宫肌瘤患者的血浆样品,经过UPLC-MS-Q-TOF仪器检测分析和预处理后得到代谢组学数据,共获得1499个峰(变量),分类变量为Y,卵巢癌为1,子宫肌瘤为0。
1.利用PLS对数据进行分析
利用PLS方法进行分析,当取7个主成分时,Q2值最大,等于0.624,此时计算PLS主成分得分,得到前两个成分的得分图,见图6,从图中可见,PLS的前两个成分在标识的区域中两种样本混在一起,其可视化效果不够理想。利用前三个成分绘制三维得分图,其区分效果有一定提高,但不够明显。
图4 同时设定4种非等相关结构时PLS前两个主成分得分图(A)与OPLS一个预测成分和第一个正交成分得分图(B)
图5 PLS方法前两个主成分得分图(A)和前三个主成分三维得分图(B)
图6 每个OPLS成分的λ的直方图
图7 OPLS一个预测成分和第一个正交成分得分
图8 置换检验图(A)和Q2置换检验图(B)
2.利用OPLS法对数据进行分析
从特征值方法看到取6~8个成分时λ值都比较小(图6),利用交叉验证方法得出,去除6个正交成分时的Q2值最大(Q2=0.622),因此本例选择去除6个正交成分,此时结果表明,利用一个预测成分和6个正交成分中的第一个正交成分的得分图可以明显地区分对照组和病例组,可视化效果明显(图7)。为证明OPLS方法结果的真实性,我们进行置换检验,随机打乱Y变量标签1000次,得到每次值与Q2值,其频数分布图见图8,图8(A)中横坐标为0.72的点为正确标签下的值,图8(B)横坐标为0.622的点为正确标签下的Q2值,从两图中可以看到打乱标签后的值和Q2值明显小于正确标签下的和Q2值,说明OPLS方法得出的结果是真实的。两种方法的值与Q2值比较见表2。
表2 卵巢癌代谢组学数据两种分析方法的结果比较
1.代谢组学数据具有高维、小样本的特性,其中既有对分类起作用的差异变量,同时包含大量相关的无差异变量,如果利用PLS进行分析,则由于相关变量的影响,使差异变量分散在多个主成分上,当主成分个数大于3时,无法更好地进行可视化(只能选择三个贡献大的主成分)。OPLS方法则能够移除X变量中与Y变量不相关的变量,使有差异的变量集中在第一个主成分中,模型变得简单和易于解释,更好地实现结果的可视化。
2.通常情况下,当无差异变量相关程度不高时,PLS方法能得到较好的效果,此时应用OPLS方法分析结果差别不大,我们可以任选PLS或者OPLS中的一种方法对数据进行分析。理论上讲,从判别角度看,由于PLS可以利用多个主成分,而OPLS仅使用了一个主成分,可能有些较弱的差异变量被当作正交成分被剔除,使实际判别效果略为变差。实际中,由于代谢组学中很多物质是同一种代谢物产生的碎片,这些碎片通常具有高度相关性,同时很多物质间由于代谢通路的关系也具有较高的相关性,因此在模拟实验中设置了变量高相关的情况。当无差异变量相关程度较高时,利用OPLS方法的效果优于PLS。
3.本文用两种方法对卵巢癌代谢组学数据进行了分析,利用两种分析方法对实际数据进行分析,结果显示OPLS方法可视化效果优于PLS方法,同时具有较高的判别能力,与模拟试验的结果相一致。在实际应用中,我们可以根据数据变量之间是否相关,综合考虑可视化效果和判别能力(Q2)进行方法的选择。
4.PLS和OPLS方法都只适合线性相关结构的数据分析,如果变量间存在非线性关系,使用这两种方法分析的效果可能会明显变差,这时可以考虑利用处理非线性数据的核方法[8]。
1.Barker M,RayensW.Partial least squares for discrimination.Journal of Chemometrics,2003,17(3):166-173.
2.蒋红卫,夏结来,李园,于莉莉.偏最小二乘判别分析在基因微阵列分型中的应用.中国卫生统计,2007,24(4):372-374.
3.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16:119-128.
4.Bylesjo M,Rantalainen M,Cloarec O,etal.OPLS discriminant analysis:combining the strengths of PLS-DA and SIMCA classification.Journal of Chemometrics,2006,20:341-351.
5.Tapp HS,Kemsley EK.Notes on the practical utility of OPLS.Trends in Analytical Chemistry,2009,28(11):1322-1327.
6.Wold S.Cross-Validatory estimation of the Number of Components in Factor and Principal ComponentsModels.TEchnometrics,1978,20:397-405.
7.The R project for Statistical Computing[http://www.rproject.org/].
8.Czekaj T,Wu W,Walczak B.About Kernel latent variable approaches and SVM.Journal of Chemometrics,2005,19:341-354.
(责任编辑:丁海龙)
The Theoretical Properties of Orthogonal Projection to Latent Structures(OPLS)and its Application in M etabolom ics Data Analysis
Li Junnan,HouYan,Sun Fengyu,et al.(DepartmentofMedicalStatistics,HarbinMedicalUniversity(150081),Harbin)
ObjectiveTo explore the theoretical properties and characteristics of orthogonal projection to latent structures(OPLS)and the application inmetabolomics data aswell.MethodsWe independently program OPLS algorithms using R and explore the OPLSmethod to the real conditionsw ith simulation studies and validated the utility to the real example.ResultsThemodel fitting effect w ith single OPLS principal component is identical to that w ith multiple components obtained from PLSmethod.Meanwhile,OPLS has excellent external prediction ability as well as a better visualization effect compared w ith PLS.ConclusionOPLS can effectively remove information unrelated to the response,which improved,its explanatory ability and visualization effect.Thismethod can effectively be used in metabolom ics data.
Orthogonal Projection to Latent Structures;Model Fitting;Metabonom ics;Visualization
*:高等学校博士学科专项基金(项目编号:20122307110004);国家自然科学基金资助(项目编号:81172767)
△通信作者:李康,likang@ems.hrbmu.edu.cn