基于聚类分析的高等教育系统多样性测量

2016-12-09 07:51王传毅查强
统计与决策 2016年19期
关键词:辛普森均值一致性

王传毅,查强

(1.武汉大学教育科学研究院,武汉430072;天津大学教育学院,天津300073)

基于聚类分析的高等教育系统多样性测量

王传毅1,查强2

(1.武汉大学教育科学研究院,武汉430072;天津大学教育学院,天津300073)

现有聚类分析测量的高等教育系统多样性存在着忽略院校类别分布和类别差异程度等主要缺陷,文章提出的基于先验分类信息、基于最佳分类数以及基于类数和距离关系的三种测量方法可对现有测量进行有效地改进。中国高等教育系统多样性测量的案例显示:三种测量方法具有较高的一致性。

高等教育系统;多样性;聚类分析;中国案例

0 引言

多样性是后大众化时代高等教育发展的重要特征之一。系统多样性对于高等教育的发展有着举足轻重的作用。首先,在高等教育从精英化走向大众化的今天,系统的多样性有助于满足多元化学生群体的多样化需求;其次,多样化的高等教育为社会弱势群体提供了更多的入学机会;同时,多样化的高等系统能够更好地适应劳动力市场对第三级教育学位获得者的需求。[1]因此,高等教育的扩张和多样化往往是相伴而生的现象。惟其如此,如何测度一国高等教育系统的多样性成为众多政策研究者和学术界关注的一个焦点问题。本文致力于开发一种测度高等教育体系多样性的可靠方法。有了这样的方法,决策者可以简洁直观地了解特定高等教育系统多样性的变化,从而寻求对策。研究者则可以迅速获得研究新方向的信号,因此探求现象背后的驱动因素。本文也是一个大型课题的子项目。这个大型课题寻求将组织行为理论与大学文化(包括学科文化)的观点结合起来,建构一个关于高等教育体系多样性的多层次、多维度的分析框架和研究方法。

1 高等教育系统多样性的内涵

依据博恩本(Birnbaum)的界定,高等教育系统多样性(Systematic Diversity)是指“高等教育系统中所共存的具有不同愿景、规模以及归属部门等方面的高等院校的类型”。[2]

简而言之,高等教育系统中院校所存在的类型是系统多样性的直接反映。专注于“类型”,本文认为系统的多样性主要取决于三个方面:

第一,院校类型的数量。院校的种类越多,多样性越强。反之,则越弱。

第二,院校在各个类型之间的分布情况。在院校类型数量既定的情况下,院校在各类的数量分布越均衡,说明不同类型的高等教育越“百花齐放”,多样性越强。反之,则说明某些类型的院校发展欣欣向荣,某些类型的院校“一枝独秀”,其系统多样性越弱。

第三,院校类型之间的差异程度。在既定的种类数量下,类与类之间的差异越大,说明系统多样性越强。反之类与类的同质性越强,则说明种类的分化越不明显,系统多样性越弱。

2 当前高等教育系统多样性的测量方法及局限

当前高等教育系统多样性的测量方法基本上是围绕一国高等教育系统中院校的类型总数和院校在各类型中的分布情况来展开。其研究大多采用相同的路径:运用因子分析、判别分析、聚类分析对实证的数据(例如院校类型、各级各类学生数、经费投入和发表论文等)进行处理,得到不同的高等学校类型及院校在各类型中的分布数量,从而计算出若干衡量多样性的指标数值。[3-9]

在衡量多样性的统计量中,辛普森指数与博恩本指数是应用最多的指数。辛普森指数是每一类中的个案数除以总个案数后的平方之和,其数值介于0和1之间,越接近于0说明各类越均匀,多样性越大,反之则越小。博恩本指数是将样本存在的类数除以个案总数,越接近于1,说明多样性越大。[10-11]两个指数的特征在于:第一,在既定的类的数量下,辛普森指数衡量的是各类中个案分布的均衡程度和类的多少;博恩本指数衡量的仅仅是类的多少,不同类别中个案数目的变化不会影响其数值变化;第二,当不断纳入新的个案时,二者变化也不相同。当新的个案归属于样本数量较少的类别时,辛普森指数就会降低,反之则增加;只要新的个案不能独立成为一类,博恩本指数就不会变化。相较而言,辛普森指数比博恩本指数更灵敏。计算得到的辛普森指数或博恩本指数数值可用于历时性和共时性(国际比较)比较,从而对一国高等教育系统多样性程度作出判断。

虽然已有的方法对高等教育多样性的测量提供了莫大的支持,但它们也并非完美无缺:

首先,广泛用于衡量多样性的辛普森指数与博恩本指数存在明显的局限。虽然它们可以反映类别数多少以及高等院校在各个类别中的分布情况,但却忽略了类别之间的相似性程度(类间距离)这一重要方面。

同时,作为一种探索性分析,聚类分析的结果并不稳定。聚类分析衡量个案之间的距离和类别之间的距离有多种方法。选取哪一种方法并无定论,但不同方法所得出的结果往往并不完全一致。处于“模糊地带”的个案在不同的方法下游走于不同的类别之间。因此,如何保障聚类结果的可信度和不同方法的稳定性成为非常重要的问题。

继而,聚类分析的不稳定性很大程度上使基于客观数据形成的分类掺杂了更多主观性的因素。如何选择最佳的聚类数?这不是一件简单的工作。虽然统计学提供了一些可资参考统计量或运用一些图示的方法(聚合系数图、合并进程图),但在现实操作上,这些并非十分灵验和准确。统计量之间可能会对最佳的分类数产生“争执”,图示的方法在很大程度上依赖于研究者的主管判断。虽然大多数作者并未将其聚类以及类数的选择过程在文章中进行细致的描述,但我们猜想,这一定是个艰难抉择的过程。

此外,运用因子分析化简指标所造成的信息损失对多样性的历时性对比有着负面影响。如果将各年份所有的高校纳入一个数据集提取主因子,则信息的损失很可能会弱化各年份高等教育系统的特殊性;如果将各年份高校的数据集分别提取主因子,则损失的信息会使对比的合理性基础产生动摇,即不同年份所形成的高校分类是建立在不同的信息基础之上,直接对比缺乏现实意义。

3 高等教育系统多样性的测量方法之改进

3.1基于先验分类信息的多样性测量

一般而言,一国政府、公众或是第三方组织都会依据质量、地位或功能等标志对该国高等教育系统中的院校形成一个大致稳定的分类。这种分类为高等院校贴上了醒目的标签,并往往与其资源获得相联系。然而,高等院校的发展除了受到外部的影响,还遵循着自身的发展逻辑。院校传统、学科文化以及院校内学术共同体的建构等多个方面也对院校发展产生着至关重要的影响。因此在院校发展的过程中,有的院校打破了既有的“标签”形成了新的种类,从而对一国高等教育系统的多样性产生影响。

因此,本文认为可将一国高等教育系统现有的种类数量和分类标准作为聚类分析所需设定的类数和指标,对系统内高等院校进行再分类,获得院校在各类中的分布情况,从而利用相应的统计量测算出系统多样性的程度。

在统计量的选择方面,辛普森指数是一个不错的选择。然而,正如上文所言,辛普森指数只是依据样本在各类别中的分布情况对多样性做出判断,各类之间的差异程度并未反映在内。幸好,统计学中的伪F统计量(Calinskiand Harabasz Pseudo F)为各类之间的差异程度的测量提供了途径。

伪F统计量是聚类分析中所形成各组之间的组间差异平均值与组内差异平均值之间的比值。[13]应用于分析高等教育系统的多样性,伪F统计量可以有效地弥补辛普森指数的不足,用类别之间差异的大小作为测量多样性的另一个重要指标。在类数和组内差异既定的情况下,组间差异越大,伪F统计量越大,这表明各类高等院校之间的差异程度增大;在类数和组间差异既定的情况下,组内差异越小,伪F统计量越大,这表明相较于其它类别的高等院校,各类别中高等院校的同质性越强,即各类高等院校之间的差异相对更为显著。

依据辛普森指数和伪F统计量的定义,辛普森指数数值和高等教育系统的多样性呈反比,辛普森指数越小,多样性越强;伪F统计量和高等教育系统的多样性呈正比,伪F统计量越大,多样性越强。

综上所述,基于先验分类信息的多样性测量方法如图1所示:依据先验信息设定高等院校的类别数量和聚类指标,运用快速聚类(K-means Cluster和K-medians Cluster)的办法获得样本院校在各个类别的分布信息以及类与类之间的差异程度,在此基础上计算辛普森指数和伪F统计量从而测量高等教育系统的多样性.

图1 基于先验分类信息的多样性测量方法

3.2基于最佳分类数量的多样性测量

虽然在既定的类别数量条件下,辛普森指数和伪F统计量能够表征出一国高等教育系统多样性的程度,但问题依然存在于既定的类数是否就是真实的、合理的类数。若非如此,则进行快速聚类所得到的各类院校分布就会有失偏颇,依据该分布计算得出的辛普森指数和伪F统计量就难以真实地反映高等教育系统的多样性。

本研究的聚类方法为K均值聚类(K-means)和K中位数聚类(K-medians)。两种聚类方法各具优势。K均值聚类能够充分利用已聚集成类的个案的所有信息;K中位数聚类能够在很大程度弱化极端个案对类重心计算的影响。

如何判断两种聚类方法的结果具有最大的一致性?我们建议的步骤如下:

(1)分别运用K均值聚类和K中位数聚类对一国高等院校进行分类,将类数设定为N,得到各院校在两种聚类方法下的类别信息;

(3)将每一行(或每一列)中数值最大的xij作为K均值聚类下第i类与K中位数聚类下的第j类判断一致的高等院校数,并将其除以每一行(或每一列)的高等院校总数,即,该比例为在第i类(或第j类)上K均值聚类与K中位数聚类的一致性指数;

(4)求出i类(或j类)一致性指数的均值和方差。均值代表两种聚类方法对高等院校类别数判断的整体一致性水平,方差代表两种聚类方法对类别判断一致性的差异程度。

(5)依据一致性指数的均值和方差选取最佳的分类数。最佳的分类数应使一致性指数的均值最大、方差最小。

综上,基于最佳分类数的多样性测量方法如图2所示:

图2 基于最佳分类数量的多样性测量方法

3.3基于类数与距离关系的多样性测量

在既定的类别数量下,辛普森指数和伪F统计量能够表征出一国高等教育系统多样性的程度。即使既定的类数不是现实存在的合理类数,我们也能依据不同聚类方法的稳定性找出合理的分类数。但我们仍缺乏一种有效的方法能够将类数和距离共同作为多样性的测量途径。基于此,本研究试图放开对类数所做出的先验假定,也不寻求最佳的分类数,而是从聚类过程中类数和类间距离的关系入手来表征高等教育系统的多样性。

本研究将采用层次聚类(HierarchicalCluster),依据指标计算出各个高校之间的距离,并将每个高校视为一类,然后按照高校与高校之间的距离进行聚类合并。先将距离较小的若干高校合并成一类,再逐步将距离较大的高校纳入其中。随着距离的增大,越多越多的高校聚集成类,类的个数也就相应减少,直到最后所有的高校聚为一类。

在此方法中,高等教育系统的多样性不再是通过一个数值来衡量,而是一个基于类数与距离函数关系式的类数和距离的值域:(1)当类数固定时,高校之间的距离大小;(2)当高校之间的距离固定时,类数的多少。(1)和(2)等价,(2)是(2)的反函数。

其中特别需要注意的是,高校数量的多少会对类数产生最直接的影响,至少从层次聚类的第一步来看,高校数量越多、初始的类别也越多。特别是当我们对一国高等教育系统的多样性进行历时性对比和共时性对比(国际对比)时,比较绝对的类数不具有现实意义。因此,我们采用的是相对类数,即样本所聚集成的类别占样本数(也就是最初的类数)的比例。

为简化分析,本研究将相对类数固定为25%、50%和70%,即当所形成的类的数量分别占总样本数量的25%、50%和75%时各高校之间的距离大小作为高等教育系统多样性的度量。

综上所述,基于类数和距离关系的测量方法见图3:

图3 基于类数和距离关系的测量

4 高等教育系统多样性的测量方法之应用

我们对上述方法的适用性进行验证。同时,为考察三种方法之间的一致性,我们以1998年(大规模扩招之前)和2011年(高等教育体系扩张尘埃落定、新的发展规划刚刚实施之时)两个时间节点的中国高等教育系统作为进行比较。若三种方法对两个时间节点的中国高等教育系统多样性的判断均一致,则我们认为分析结果是稳健的,方法之间能够很好地“达成共识”。

本研究选取的指标及其数据来源见表1。我们对各指标的数据按照不同的年份进行了标准化处理,使之不受到各指标量纲及单位的影响,成为服从均值为0,标准差为1的正态分布。

表1 聚类指标及其数据来源

4.1基于先验分类信息的多样性测量

中国教育主管部门曾在上个世纪50年代将高等院校明确划分为12类:综合类、理工类、农业类、林业类、医药类、师范类、语文类、财经类、政法类、体育类、艺术类和民族类。此后各类统计工作均沿用这一分类方式。

基于此,我们将12类作为中国高等教育系统中院校的分类的先验信息,考察1998年和2011年两个时间点上各院校在此12类中的分布情况。

为尽可能保证多样性测量的稳定性,我们将分别采用K均值聚类和K中位数聚类两种快速聚类方法,聚类的距离分别采用Euclidean距离和Euclidean Square距离。这样我们就得到具有不同方法和度量距离的4(2*2)次聚类结果。此外,K均值聚类和K中位数聚类的结果也受到其初始聚类中心的影响,故我们随机选择初始聚类的中心进行聚类,并将此过程重复10次,得到10次随机选择其初始聚类中心的分类结果,将10次聚类结果的辛普森指数和10个伪F统计量数值求均值。(结果见表2、表3,其中“E”是指Euclidean距离;“ES”是指Euclidean平方距离)

表2 基于先验分类信息多样性测量的辛普森指数和伪F统计量

辛普森指数的分析结果显示:当固定为12类时,无论运用K均值聚类方法还是K中位数聚类方法,无论采用Euclidean距离还是Euclidean平方距离,2011年的辛普森指数数值都明显小于1998年的辛普森数值。这说明以高等院校在各个类别中分布的均衡性来看,2011年高等教育系统的多样性要高于1998年。

伪F统计量的分析结果显示:当固定为12类时,无论运用K均值聚类方法还是K中位数聚类方法,无论采用Euclidean距离还是Euclidean平方距离,2011年的伪F统计量数值都明显大于1998年的伪F统计量数值。这说明,2011年高等院校各个类别之间的差异较之于1998年更为明显。

综上所述,基于先验分类信息的多样性测量,2011年中国高等教育系统的多样性比1998年中国高等教育系统的多样性要强。

4.2基于最佳分类数的多样性测量

本文分别运用K均值聚类和K中位数聚类对各年份的个案进行分析。我们将关注类数从5逐次变为20,考察两种方法对个案归属判断的一致性大小。

我们将不同类数所求得的一致性大小的均值和标准差归纳于表3。正如上文所言,均值越大代表着两种聚类方法的一致性越高,标准差越小代表着两种聚类方法的一致性越稳健。依据此原则,表3中的13类和5类为2011年中国高等院校最佳的分类数。当类数为13类时,两种聚类方法的一致性均值达到74.23%,标准差为0.1480;当类数为5类时,两种聚类方法的一致性均值达到75.69%,标准差为0.1747。较之于5类,13类的分类方式虽然均值逊于5类,但标准差小于5类,说明13类的分类方式更稳健。同时,类数少的分类方式较之于类数多的分类方式一般而言往往具有更高的一致性。因此,我们将2011年中国高等院校的最佳分类数定为13类。

对于1998年的中国高等教育系统,9类和5类为2011年中国高等院校最佳的分类数。当类数为9类时,两种聚类方法的一致性均值达到74.89%,标准差为0.1808;当类数为5类时,两种聚类方法的一致性均值达到75.80%,标准差为0.1696。虽然9类的分类方式在均值和标准差上的表现均略逊于5类,但我们仍倾向于选择类数较大的分类方式。因此,我们将1998年中国高等院校的最佳分类数定为9类。(详见表3)

表3 不同类数聚类结果一致性的均值与标准差

综上所述,基于最佳分类数的多样性测量,2011年中国高等教育系统的多样性强于1998年中国高等教育系统的多样性。

4.3基于距离和类数的多样性测量

依据基于距离和类数的多样性测量方法的步骤,我们运用层次聚类法(Hierarchical Cluster)计算出各高等院校之间的距离,并将其逐步合并。为验证聚类结果的稳健性,我们对院校间相似性的度量仍采用Euclidean距离和Euclidean平方距离。聚类方法是应用最广的类平均法(Average Linkage)。当高等院校所聚集成的类数分别为总样本数的75%、50%和25%时,个案之间的距离大小则是其系统多样性的直接反映。(结果见表4,其中“E”是指Euclidean距离;“ES”是指Euclidean平方距离)

表4 各年份相对类数所对应的院校间距离

无论固定的相对类数为75%、50%还是25%,1998年高等院校之间的距离均小于2011年高等院校之间的距离。即使更改距离类型,结果保持不变。(详见表4)这表明在控制了院校总数的情况下,当以相同的类数来划分高等教育系统内院校的归属时,2011年各类之间的距离比1998年各类之间的距离要大。换而言之,按照固定的类间距离(相似性)对高等院校进行分类,2011年高等院校所形成的种类比1998年更多。

5 结语

本文围绕高等学校的类数、院校在各类间的分布以及类与类之间的距离设计了三种方法测量高等教育系统的多样性。基于先验分类信息的多样性测量方法运用关注样本在各类别分布均衡性的辛普森指数和关注各类别之间距离相对大小的伪F统计量对1998年和2011年中国高等教育系统多样性进行判断,在使用不同的快速聚类方法和选取不同的距离计算方式的情况下,两个统计量的判断结果完全一致;基于最佳分类数的多样性测量本身就是为寻求不同分类方法的“共识”所设计,其所提供的判断标准(均值最小、标准差最大)能够较为清晰地辨识出2011年和1998年最佳的分类数分别为13类和9类,从而反映出不同年份中国高等教育系统多样性的变化趋势;基于距离和类数的多样性测量本身重现了聚类的全过程,在相对类数处于不同水平时,2011年各类之间的距离始终大于1998年的距离。三种测量方法均显示2011年中国高等教育系统的多样性强于1998年,这表明三种方法之间具有高度的一致性。

[1]Van Vught FA.Mapping the Higher Education Landscape:Towards a European Classification Of Higher Education[M].Dordrecht:Spring⁃er,2009.

[2]Birnbaum R.Maintaining Diversity in Higher Education(1sted.)[M]. San Francisco:Jossey-Bass,1983.

[3]King J.The Typology of Universities[J].Higher Education Review, 1970,2(3).

[4]Smart J.C,Elton C F.Goal Orientations of Academic Departments:A TestofBiglan'sModel[J].Journalof Applied Psychology,1975,60(5).

[5]Tight M.Institutional Typologies[J].Higher Education Review,1988,20(3).

[6]Tight M.University Typologies Re-examined[J].Higher Education Review,1996,29(1).

[7]Carnegie Foundation for the Advancement of Teaching a Classifica⁃tion of Institutions of Higher Education[R].Princeton,NJ:CFAT,1987.

[8]Carnegie Foundation for the Advancement of Teaching[R].A Classifi⁃cation of InstitutionsofHigher Education.Princeton,NJ:CFAT,1994.

[9]Carnegie Foundation for the Advancementof Teaching.The Carnegie Classification of Institutions of Higher Education[R].Princeton,NJ: CFAT,2000.

[10]Huisman J.Differentiation,Diversity and Dependency in Higher Ed⁃ucation[J].Utrecht,the Netherlands:Lemma,1995.

[11]Huisman J,Meek V,Wood F.Institutional Diversity in Higher Edu⁃cation:A Cross-National and Longitudinal Analysis[J].Higher Edu⁃cation Quarterly,2007,61(4).

[12]Calinski T,Harabasz J.A Dendrite Method for Cluster Analysis[J]. Communicationsin Statistics,1974,(3).

(责任编辑/易永生)

G40-058

A

1002-6487(2016)19-0032-05

王传毅(1985—),男,四川成都人,副教授,高级调查分析师,研究方向:教育统计。查强(1966—),男,加拿大人,教授,研究方向:比较教育和高等教育。

猜你喜欢
辛普森均值一致性
关注减污降碳协同的一致性和整体性
注重教、学、评一致性 提高一轮复习效率
IOl-master 700和Pentacam测量Kappa角一致性分析
数学中的似是而非——辛普森悖论
均值—方差分析及CAPM模型的运用
均值—方差分析及CAPM模型的运用
基于事件触发的多智能体输入饱和一致性控制
关于均值有界变差函数的重要不等式
赛跑
辛普森自动变速器五挡动力流分析