对PLS路径模型在综合评价应用中“优势”的审视

2014-10-09 15:56斯介生李扬肖宏伟蒋远营
现代管理科学 2014年10期
关键词:审视综合评价优势

斯介生 李扬 肖宏伟 蒋远营

摘要:近年来,PLS路径模型在综合评价领域有很多应用。文章针对该方法在综合评价应用中的公认“优势”进行了分析,对这些优势进行了客观的评价,并给出利用该方法进行综合评价的建议。

关键词:PLS路径模型;综合评价;审视

一、 引言

PLS路径模型(PLSPM)是指基于偏最小二乘方法的结构方程模型,该方法最初提出是为了克服基于协方差分析结构方程模型(CB-SEM)很强的分布假定(R?觟nkk?觟. M and Evermann. J,2013)。在实际应用中,该方法在综合评价中也有不少应用,特别是在满意度综合评价方面应用广泛,在商学、管理学等社会科学中有重要地位。以致部分文献将顾客满意度模型等同于PLS路径模型(梁燕和金勇进 2007)。近年来,我国学术界对于该方法的应用在综合评价的研究也如雨后春笋一般出现了不少文献(如:王惠文和付凌晖,2004;林盛,刘金兰和韩文秀,2005;阮敬和纪宏,2006;邹树梁等,2008;刘旭华,2008;莫一魁和沈旅欧,2009;关子明等2009;叶明和张磊,2010;鲜思东和彭作祥,2011;区晶莹等,2011;杨威和张拓红,2012;王庆丰,2013)。根据这些文献和综合评价理论,可以将PLS路径模型进行综合评价的步骤归纳为:第一,确定评价目标,建立指标体系,收集数据;第二,实施综合评价,具体为:①用迭代(包括一系列最小二乘回归,线性运算和抽取平方根)得到潜变量的表达式,它们是可测变量的加权平均;②用通常的最小二乘得到潜变量之间的线性关系;③用通常的最小二乘得到潜变量与对应可测变量间的线性关系;④利用潜变量的估计值得到各种指数,进行综合评价。第三,检验与评估综合评价的结果。笔者查阅了近年来的相关文献发现,多数文献指出PLS路径模型进行综合评价有着其他方法没有的优势,具体可以归纳为四点:第一,克服多重相关性和共线性的影响;第二,相比CB-SEM,分布假定很弱;第三,样本容量要求没有CB-SEM高,适合小样本情形;第四,是一种客观的综合评价方法。但是,目前没有文献在综合评价框架下对这些优点做出进一步的细致说明。笔者认为,PLS路径模型并非为综合评价专门设计的方法,并且这些优点基本上是相对CB-SEM比较得出的,将它们直接移植到综合评价领域,不甚严格,需要推敲。事实上,用于综合评价的统计模型很多,但是很多学者对这些模型在综合评价框架下的适用性进行了研究,例如,仅关于主成分分析就有很多文献,如苏为华(2000),王学民(2007),林海明和杜子芳(2013)等。为此,本文将对上述四大优点在综合评价框架下进行审视,提出并解答四个问题,即利用PLS路径模型进行综合评价时:

(1)有没有样本量的要求?

(2)有没有针对样本的分布假定要求?

(3)没有多重共线性的影响了吗?

(4)客观性体现在哪里?

二、 问题的研究

为了对上述问题进行研究,我们首先概述PLS路径模型的算法,然后根据概述回答问题。

1. PLS路径模型算法概述。利用PLS路径分析进行综合评价,首先要分划好可测变量的归属,一个潜变量对应一组可测变量。为此假设有Q个潜变量?孜1,…,?孜Q,第j个潜变量对应的可测变量为Xj=(xj1,…,xjpj)′,j=1,…,Q。则有xjh=?姿jh?孜1+?着jh(h=1,2,…,pj)或者?孜j=?撞■■wjh+?着j,前者为反映型(Reflective),系数为载荷;后者为反映型(Formative),系数为权重,选择何种形式需要根据实际问题决定,这种反映可测变量与潜变量关系的模型为测量模型。其次要设定好潜变量与潜变量之间的关系结构,即?孜i=?撞■■?茁ij?孜j+vij。这部分模型称为结构模型,模型中的系数为路径系数。潜变量的得分(即潜变量的估计值)是进行综合评价的关键,对其估计通过迭代实现。由三大步骤组成:

外部逼近:

Yj∝■wjhxjh

Yj是?孜j的外部逼近估计量,∝表示左边是右边的标准化,Wj=(wj1,…,wjpj)′是外部权重。

内部逼近:

zj∝■ejiYi

其中,i:i?圮j表示与第j个潜变量直接有关的潜变量的下标。eji是内部权重,有三种不同的形式(Tenenhaus M,2005)。

更新权重:

内部权重由潜变量间的结构决定,迭代过程中需要更新的是外部权重,当测量模型为反映型时,对于xjh,其新权重为以Zj为自变量,xjh为因变量的一元线性回归系数,但由于Zj被标准化,因此有wjh=cov(xjh,Zj),当测量模型为构成型时,新的权重以Zj为因变量,与之对应的可测变量xjh为自变量的多元线性回归的回归系数,即

Wj=(Xj′Xj)-1Xj′Zj

上述步骤反复迭代,直到权重变化不大,就认为收敛,得到最终的权重估计值,潜变量的得分就是可测变量的加权平均值。

下面给出前面四个问题的解答。

2. 问题解答。

(1)问题1的解答。通过算法概述可以看出,PLS路径模型的最终目的虽然是得到潜变量得分,但是其本质是得到权重的估计。而权重的估计通过一系列的最小二乘方法反复迭代得到,即迭代过程中本质上涉及到一系列的线性回归模型。目前已有一些学者讨论了PLS路径模型的最小样本量,这些研究的主要依据是算法中涉及最大回归方程需要的样本量作为PLS路径模型的最小样本量。例如,Chin. W.W(1998)认为其最小样本量应该为最大结构方程中自变量个数的10倍。梁燕和金勇进(2007)从最大回归方程、准确估计参数、准确估计R2三个角度研究认为,样本量至少需要100,最好在230以上。但是这些研究都是从PLS路径模型作为统计方法出发的。不能回答综合评价需要的样本量。

根据综合评价的理论,综合评价的目的在于科学决策(杜栋等,2008),首先要求评价结果能够客观反映世界的真实情况。这就要求样本需要能够具有普遍性,因此样本量是否足够不仅需要考虑PLS路径模型本身,还需要考虑样本是否具备代表性,过小的样本量将带来较大的误差。其次,要求参与建模的统计模型能够客观地挖掘总体信息,达到样本推断总体的效果。这样才能针对总体情形进行科学决策。为此,需要首先回答PLS路径模型挖掘样本的何种信息,可以证明(Dijkstra. T,1983),PLS路径模型的权重估计是一个不动点估计问题,具体为:

反映型:Wj∝?撞i:i?圮jeji·SjiWi,其中Wj′SjjWj=1;

构成型:Wj∝S-1jj?撞i:j?圮ieji·SjiWi,其中Wj′SjjWj=1

其中,Sji为第j组可测变量与第i组可测变量的样本协方差矩阵,Sjj是第j组可测变量的样本方差矩阵。上述等式说明了两点事实:

①对于权重估计的信息来自可测变量的样本协方差矩阵,权重可以看成是样本协方差矩阵的函数;

②PLS路径模型挖掘样本信息,是一种非参数方法。

这就意味着PLS路径模型进行综合评价、科学决策的前提是样本协方差矩阵与总体协方差矩阵足够接近,这与CB-SEM对样本量的要求是相同的。因此,本文认为,在综合评价框架下,所谓PLS路径模型适合小样本的说法并不合适,为了进行科学决策,样本量越大越好。从样本协方差矩阵接近总体协方差矩阵的角度考察,PLS路径模型的样本量要求不低于CB-SEM的样本量要求。

(2)问题2的解答。由于PLS路径模型的估计问题实质上是一个不动点问题,且估计方法为基于最小二乘的迭代算法,因此该方法本质上是一种非参数方法,从数学上而言,样本是不需要分布假定的。目前文献中通用的算法仅对其一阶矩有约束(Vinzi.V.E et al.,2010),

E(?孜jh|?孜j)=E(?孜j|xj1,…,xjpj)=0

E(?孜i|?孜j)=■?茁ij?孜j

(3)问题3的解答。关于PLS路径分析进行综合评价可以消除多重共线性(多重相关性)的提法首见于王惠文和付凌晖(2004),其后又有若干文献有类似提法。根据这些文献的说法,“系统评估指标体系往往被分为若干个变量组,由每个变量组表达一个主题概念。在这种情形下,所建立的评估指数应能够反映指标体系的层次性”,利用PLS路径模型可以解决这些问题。事实上,这样的做法类似层次分析法,不同的是前者利用可测变量间的线性关系结构作为赋权依据,后者依赖专家评分(宁禄乔,2006)。但是这不意味着利用PLS路径模型就能解决多重共线性问题。我们指出,如果测量模型仅为反映型模型,且不考虑路径系数,那么多重共线性确实可以得到解决。除此之外,还存在其他的多重共线性问题。

①测量模型中可测变量的多重共线性。这种情况发生在测量模型为构成型,或者混合型(构成型和反映型的混合)时。原因在于,同一组可测变量都刻画一个潜变量,这些可测变量必然相关。

②结构模型中的多重共线性。当需要考察路径系数时,如果结构模型中解释变量多于一个,这种情况就需要引起注意。原因在于,得到潜变量得分估计后,需要通过最小二乘方法估计路径系数,如果解释变量多于一个,本质上就是潜变量之间的多元线性回归。这时就会面临多元线性回归的多重共线性问题。

为了解决这些问题,需要对算法进行修正。Vinzi.V.E et al.,(2010)建议在迭代过程的权重更新阶段和路径系数估计阶段用PLS回归方法代替OLS方法。

(4)问题4的解答。由于PLS路径模型进行综合评价是通过对可测指标赋权,得到潜变量得分,从而进行综合评价。因此讨论其客观性本质上关注的是权重的客观性。在综合评价框架下,计算权重大致可分为两类,一是主观权重,由专家判断得到;另一类是客观权重,由实际数据产生(杜栋等,2008)。通过其算法和评价步骤,我们认为PLS路径模型并非完全的客观评价方法。原因在于对可测变量的分组是主观的。其客观性体现在权重基于可测变量的方差-协方差结构,这是由权重的不动点性质决定的。根据数理统计知识,方差-协方差结构与变量间的线性关系有密切的联系,因此可以认为PLS路径模型挖掘了各变量间完全的线性关系(吴喜之,2013)。

同时需要指出,可测变量间的方差-协方差结构对权重关系密切,对可测变量的量纲处理将影响权重的客观性。如果对可测变量进行标准化,使其均值为0,方差为1,则可测变量的方差-协方差矩阵退化为相关系数矩阵。这样,可测变量本身的变异信息将不能被权重反映出来,权重仅反映变量之间的相关关系信息。为此,在对可测变量进行去量纲处理时,应该保留其本身的变异信息。可以采用孟胜旺(1992)的处理办法。

三、 结论和建议

本文对PLS路径模型应用于综合评价时的几个“优点”进行了审视,指出①在综合评价框架下,PLS路径模型适合小样本不能作为优点看待,进行综合评价时,样本越大越好,使得样本方差-协方差矩阵与总体方差-协方差矩阵充分接近。关于样本量的要求,可以参考CB-SEM;②从数学上而言,PLS路径模型确实不需要分布假定,只需要满足几个一阶矩的约束即可;③对于测量模型为反映型时,如果仅考察潜变量得分,PLS路径模型确实可以克服多重共线性。但是当测量模型为构成型或者混合型时,或者需要考察路径系数时,该方法并不能克服多重共线性,需要对算法进行改进;④PLS路径模型不是完全的客观评价方法,需要对可测变量主观分组,其客观性体现在权重估计基于样本的方差协方差信息。

对于使用该方法,除了已有文献(如Tenenhaus M 2005)给出的建议之外,本文提出如下建议:

(1)应该根据实际问题,对可测变量合理分组,确定测量模型的类型,确定结构模型形式;

(2)在数据处理阶段,应该保留可测变量本身的变异,例如可以用原始变量除以均值代替标准化;

(3)样本量越大越好,不建议对小样本进行综合评价,从理论上而言,没有意义;

(4)当需要考察路径系数时,以及测量模型为构成型和混合型时,需要注意多重共线性的影响。

参考文献:

1. 杜栋,庞庆华,吴炎.现代综合评价方法与案例精选(第二版).北京:清华大学出版社,2008.

2. 关子明,常文兵,王薇.基于结构方程模型的银行员工绩效考核方法.经济论坛,2009,(2):108-109.

3. 梁燕,金勇进.顾客满意度模型的样本量研究.统计研究,2007,(7):68-74.

4. 刘旭华.基于PLS通径分析的上市公司财务指标综合评价.数理统计与管理,2008,(4):695-700.

5. 林海明,杜子芳.主成分分析综合评价应该注意的问题.统计研究,2013,(8):25-31.

6. 林盛,刘金兰,韩文秀.基于PLS-结构方程的顾客满意度评价方法.系统工程学报,2005,(6):653-656.

7. 孟生旺.用主成份分析法进行多指标综合评价应注意的问题.统计研究,1992,(4):67-68.

8. 莫一魁,沈旅欧.城市公交系统公众评价的偏最小二乘通径模型.深圳大学学报(理工版),2009,(4):436-440.

9. 宁禄乔.PLS算法研究.天津大学学位论文,2006.

10. 区晶莹,张淞琳,俞守华.基于偏最小二乘通径模型的农民工信息能力综合评价.农业系统科学与综合研究,2011,(4):495-501.

基金项目:国家自然科学基金(项目号:11361019);广西自然科学基金重点项目(项目号:2013GXNSFDA019001);中国人民大学科学研究基金项目“纵向边际化随机效应模型应用研究”(项目号:13XNF058)。

作者简介:斯介生,中国人民大学统计学院博士生;李扬,中国人民大学统计学院副教授,中国人民大学统计咨询研究中心副主任,中国人民大学经济学博士,美国耶鲁大学博士后;肖宏伟,国家信息中心经济预测部助理研究员,中国人民大学经济学博士;蒋远营,桂林理工大学理学院副教授。

收稿日期:2014-08-11。

猜你喜欢
审视综合评价优势
矮的优势
画与话
未经旅行“审视”过的设计,是不可信的
10kV配电线路带电作业安全综合评价应用探究
基于熵权TOPSIS法对海口市医疗卫生服务质量的综合评价
主成分分析法在大学英语写作评价中的应用
民族传统体育的文化审视与当代发展探析
关于国际法渊源内涵和外延的重新审视
生与死:《荒野猎人》的伦理价值审视
郑州市各县(市)创新能力综合评价