山东省潍坊医学院预防医学系卫生统计教研室(261053) 王园园 陈景武
偏最小二乘法是由瑞典经济计量学家 Herman Wold于 1966年首次提出。1983年由伍德 (S.Wold)、阿巴诺(C.A lbano)等人提出了一种新型多元统计分析方法——偏最小二乘回归 (partial least-squares regression,简称 PLS)〔1〕,密西根大学的弗耐尔 (Fornell)教授称偏最小二乘回归为第二代回归分析方法。该方法最初应用于计量化学领域并获得成功,近年来被迅速推广到其他领域,如生物信息学、社会科学等,并取得了较好效果,但在医药卫生领域却应用甚少。本文主要就偏最小二乘回归分析在医学中的用途特点以及正确应用的注意事项作简要探讨。
偏最小二乘回归分析的用途及特点〔2,3〕
1.偏最小二乘回归可以提供一种“多对多”线性回归建模的方法。特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优势。
2.偏最小二乘回归在最终模型中将包含原有的所有自变量,从而最大限度地利用了数据信息。偏最小二乘回归采用对变量 X和 Y同时都进行分解的方法,从变量 X和 Y中同时提取成分 (通常称为因子),再将因子按照它们之间的相关性从大到小排列,然后决定选择几个因子参与建模,最终转换成包含所有原始变量的回归方程,预测精度较高。
3.偏最小二乘回归可以实现多种数据分析方法的综合应用。长期以来,模型式的方法和认识性的方法之间的界限分得十分清楚,而偏最小二乘法则把它们有机地结合起来,在一个算法下,可以同时实现回归建模 (多元线性回归)、数据结构简化 (主成分分析)以及两组变量之间的相关性分析 (典型相关分析)。这是多元统计数据分析中的一个飞跃。
4.偏最小二乘回归的建模策略就是建立在信息分解与提取的基础之上的,在对自变量 X中逐次提取成分,这相当于对自变量中的信息进行重新组合与抽取,从而得到对因变量 Y的解释能力最强,同时又最能概括自变量集合 X中信息的综合变量,而与此同时,对 Y没有解释意义的信息被自然的排除。
5.在偏最小二乘回归模型中,每一个自变量 Xi的回归系数将更容易解释。偏最小二乘回归在对自变量进行信息综合时,不但考虑了要最好地概括自变量系统中的信息,而且注重所提取成分对因变量信息也必须具有最强的解释性,经过这样的筛选,对因变量无解释作用的噪声自然地被排除掉,因此,偏最小二乘回归模型在实际系统中的可解释性更强。
6.一般多元统计方法有两个重要特点:对数据的约束性和预测方程的数量永远不能多于变量 Y跟变量 X的数量。因为变量 X和变量 Y的因子都必须分别从 X′X和 Y′Y矩阵中提取,这些因子就无法同时表示变量 X和 Y的相关性。偏最小二乘回归却不需要这些对数据的约束,预测方程由从矩阵 Y′XX′Y中提取出来的因子来描述;为了更具有代表性,提取出来的预测方程的数量可能大于变量 X与 Y的最大数。总之,偏最小二乘回归可能是所有多元统计方法里对变量约束最少的方法,这种灵活性让它适用于传统的多元统计方法所不适用的许多场合。
应用偏最小二乘回归分析存在的一些问题
当前发表的文章中,在应用偏最小二乘回归分析时主要存在以下几个问题:
1.没有对自变量和因变量之间线性关系做出明确的分析推断,而直接应用偏最小二乘回归方法进行分析。
2.无法对因变量 (解释变量)与反应变量之间的关系作出精确的定量解释。偏最小二乘回归一般用于建立预测回归方程,对于未知参数分布特性的确定无能为力,它所给出因变量与反应变量之间结构关系过于抽象,难以理解,只能作定性分析,无法确定它们之间准确的数量关系〔4〕。
3.偏最小二乘法在对动态多变量过程的模型建立等方面存在一定的局限性。
4.偏最小二乘回归如何有效消除自变量系统中与因变量无关的数据信息,并在有限的成分中最大限度地提高成分解释能力,也需进一步研究证明。
1.对自变量与因变量的线性关系的判断。应用SAS软件中的 plot语句或者直接绘制自变量与因变量的散点图即可实现。
2.在建模过程中循环次数,即选取成分个数的确定是一个关键所在。为了提高模型的预测能力,必须选择一个最优的成分个数。比较常用的方法有两种:交叉验证法(cross-validation)和经验法。
交叉验证法即每个观测值既参与模型的建立,又参与模型的评价,以此来求得预测残差平方和(PRESS),其体现了观测点的变动所引起的扰动误差,最后求得所有残差平方和的合计值作为总的残差平方和〔2〕。交叉验证法可分为:①舍一交叉验证法 (leaveone-out,LOO);②分批交叉验证法;③分裂样本 (splitsamp le)交叉验证法;④随机样本交叉验证法。PRESS值越大,所建模型越不稳定,最后按照预测残差平方和最小的原则确定提取成分的个数〔2〕。
经验法是根据成分累计贡献率的大小来确定〔5〕,一般只需提取的成分解释了大部分自变量和因变量的变异信息即可,如取 65%,75%,80%等。这种方法类似于主成分分析中主成分个数的确定。该方法简单方便但不精确,回归方程的精度也不高。
此外,Jacknife方法等也可用于成分个数的确定。
3.偏小二乘估计是一种有偏估计〔6〕。在回归分析中,当设计矩阵呈病态时,有偏估计在均方误差意义下改进了最小二乘估计。但实际应用中,不能简单地认为有偏估计总会对最小二乘估计有改进作用,一定要根据具体问题选择合适的估计方法。
4.回归模型的评价及效应考核。回归模型确定后,需要对模型进行评价。除像普通多元线性回归,评价从回归方程的决定系数 (R2),及对各个回归系数的检验外,还应考虑所提取的各个成分对各个变量 (自变量与因变量)的解释能力以及累积解释能力。采用主成分分析与典型相关分析的思想提取成分,不仅保证了提取的成分尽可能多地保留原始变量的信息且保持相互独立,而且自变量与因变量的相关性最大;再采用普通最小二乘法建立回归方程的稳定性较好。
实际应用中,原始数据经 PLS降维后,可采用传统的判别方法进行判别分类。另外还需对判别效果进行考核衡量〔7〕。常用两种方法:其一是对原样本 (训练样本)进行判别,称为组内回代;其二是对原样本以外的其他样本 (考核样本)进行判别,称为组外考核,亦称为独立样本考核。
偏最小二乘法作为一种降维技术在微阵列数据的判别分析和其他分析领域中都得到了广泛应用〔8〕。比如在生存分析领域,通过病人的基因表达水平来预测生存时间,传统的生存分析模型 (如 Cox回归模型)一般无法直接使用。而 Nguyen和 Rocke建议先运用偏最小二乘法对数据进行降维,然后再对提取的成分拟合传统的生存分析模型。他们的方法在A lizadeh的淋巴瘤患者数据和 Softie的乳腺癌患者数据上都得到了成功应用。
1.W old S,A lbano C,Dunll M.Pattern regression finding and using regularities in multivariate data.M artens J In Proc IUFOST Conf“Food Research and Data”.L ondon A nalysis App lied Science Publication,1983.
2.高惠璇.应用多元统计分析.北京大学出版社,2005.
3.蒋红卫,夏结来.偏最小二乘回归及其应用.第四军医大学学报,2003,24(3):280-283.
4.Randall D,Tobias RD.A n introduction to partial least squares regression,SAS Institute Inc.,Cary,NC.
5.苏越,郭寅龙.偏最小二乘法中主成分数确定的新方法.计算机与应用化,2001,18(3):237-240.
6.肖琳,何大卫.PLS回归方法及其医学应用.中国卫生统计,2002,19(2):76-79.
7.陈峰.医用多元统计分析方法.中国卫生统计出版社,2001.
8.钱国华,荀鹏程,陈峰,等.偏最小二乘法降维在微阵列数据判别分析中的应用.中国卫生统计,2007,24(2):120-123.