惠月月,张晓琴
(山西大学 数学科学学院,山西 太原 030006)
一种增强双标图可视化的方法
惠月月,张晓琴
(山西大学 数学科学学院,山西 太原030006)
双标图是一种广泛应用的可视化分析方法, 但是当所研究的数据包含较多变量时,如果直接用双标图进行分析会导致图中较多变量重叠,不能很清晰地观察变量间的相关关系,可视化程度较低,分析效果不精确。针对上述问题,故引入一种新的方法——聚类双标图,首先通过对原始数据进行聚类分析,得到新的数据集,然后对得到的数据集进行双标图分析。该方法不仅保留了数据间的绝大多数信息,而且使得双标图的可视化程度增强。对新的方法进行实证分析,并与原始数据构成的双标图进行比较研究,验证了该方法的有效性。
双标图;聚类分析;可视化
随着e时代的到来,数据可视化[1]越来越受到人们的欢迎,其基本思想是将数据库中的每一个数据项作为单个图元元素来表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同维度观测数据,进而对数据进行更深入的观察和分析。数据可视化主要借助于图形化手段,把隐藏在数据内部的信息展示出来,清晰有效地传达与沟通信息。Klavans和Boyack将科学制图[2]定义为把元素集及它们之间的关系展示在一张二维图中,即将多维数据绘制成一张低维图,意味着要损失代表数据的信息,低维图中希望最小化信息损失。
双标图是一种典型的二维图,由Gabriel[3]于1971年首次提出,Gower和Hand[4]于1996年将其与数据分析结合起来。双标图是多元数据的图形表示,数据阵的元素通过点和向量来表示,点表示矩阵的行,向量表示矩阵的列,向量之间夹角的余弦值表示两个列变量指标的相关性。双标图基于主成分分析,能够很直观地反映变量与变量,样本与样本,变量与样本之间的关系。此分析方法已被应用到不同领域,如精神病学[5],遗传学[6],数据检查[7],测试环境评价[8],文献计量学[9],基因型[10],降雨的变化[11],社会指数[12]等等。
双标图虽是可视化的一种方法,但处理多维数据时,变量与变量之间存在相关性,画出的双标图中很多向量之间交织在一起,可视性下降。为了解决这类问题,可通过减少变量来实现。方法之一是选择变量,但可能丢失原始数据的部分信息。为此,本文提出一种新方法来减少原始变量的维度,并尽量保存原始数据的完整信息。
本节将双标图概念与分析步骤, 以及3种常见类型的双标图作简单介绍。
假设原始数据矩阵X包含n个样本和p个变量,且有如下表示:
(1)
其中xij表示矩阵X的第i行与第j列对应的元素,xj=(x1j,x2j,…,xnj)Τ(j=1,2,…,p)表示第j个变量观测值,xi=(xi1,xi2,…,xip)(i=1,2,…,n)表示第i个样本观测值。双标图分析步骤如下:
步骤1对(1)式进行标准化,即消除量纲,得到矩阵Z,且
Z=Zn×p=(zij)n×p=(z1,z2,…,zp)
(2)
其中
zj=(z1j,z2j,…,znj)Τ,j=1,2,…,p
步骤2对(2)中矩阵Z进行奇异值分解
Z=UΓVT
步骤3计算双标图坐标
Z=FGT
通常,在双标图中根据α取值的不同有3种类型双标图,具体如下:
1)协变量双标图:此时α=0,n个观测点的坐标是F=U,p个变量的坐标是G=VΓ。这种双标图适合分析变量及其之间的关系。
3)形式双标图: 此时α=1,n个观测点的坐标是F=UΓ,p个变量的坐标是G=V。这种双标图适合分析观测点及其之间的关系。
图 1 中的二维双标图各元素的解释如下:
(a)点近似表示矩阵X的行(观测点)信息;
(b)向量近似表示矩阵X的列(变量)信息;
(c)两点之间的距离D(i,j)近似表示两样本的相似性;
(e)两向量之间的夹角余弦值近似表示两列指标间的相关性;
(f)点到向量的距离近似表示标准化矩阵中该样本点在此列指标下的值。
图1 二维双标图中元素的解释Fig.1 The interpretation of elements in a two-dimensional biplot
步骤4双标图中的相关计算
令F[i,1]与F[i,2]分别表示矩阵F的第i行第1列,第i行第2列对应的元素,G[i,1]与G[i,2]分别表示矩阵G的第i行第1列,第i行第2列对应的元素。
样本到原点的距离:
向量的长度:
两向量的夹角余弦值:
如果数据集中变量较多,用双标图解释时可视化可能会减弱。为了增强可视化,本文结合聚类分析来减少原始变量的维度,并保存了原始数据的完整信息。基本思想:首先,用聚类分析中的最长距离法将原始数据集中变量分类;其次,对每一类提取其算术均值变量,此算术均值变量代表这一类的新变量,简称均值变量,所有类的均值变量构成一个新数据矩阵;最后,对此新数据矩阵做双标图分析,分析类与类之间的关系。如果对新数据矩阵做双标图分析,画出的双标图还存在之前的弊端,即类与类之间依然是拥挤、模糊状态,则循坏第一步骤,继续分类、提取,以此类推。详细描述如下。
考虑式(1)中的数据矩阵X。
步骤1利用聚类方法中的最长距离法将原始数据X的p个变量分类,分为M(M
(3)
步骤2计算(3)中每一类Xk(k=1,2,…,M)的均值变量yk(k=1,2,…,M),且
所有M个均值变量构成一个新数据矩阵Y:
Y=(yij)n×M=(y1,y2,…,yM),M
(4)
步骤3对(4)式中的新矩阵Y做双标图分析,本文主要考虑α=0的协变量双标图。
步骤4对(3)式的M类中的每一类变量进行分析,分析每类原始变量之间及原始变量与均值变量之间的关系,使分析更加具体化。
固定k,Xk=(xpk-1+1,xpk-1+2,…,xpk)类的均值变量为yk,此类原始变量和均值变量构成新的第k类,则
Qk=(xpk-1+1,xpk-1+2,…,xpk,yk)
用于分析pk-pk-1+1个变量之间的关系。
步骤5第4步骤中每一类按照步骤3画出相应的双标图,如果变量之间还存在上述弊端,即变量之间依然是拥挤、模糊状态,则循坏第一步骤,对此类原始变量继续分类、提取,到第4 步骤继续判断是否要进行第5步骤,以此类推,直到可以直观分析所有的原始变量。
本节将给出一个实例,并使用第2节中的方法对其进行分析,以验证本文方法的有效性。
随着改革开放的推进,国民经济的快速发展,各个行业间发展不平衡导致各行就业人员收入差距也有大的变化趋势,而就业人员的平均工资是各个行业收入的一个直观表现。表1是2014 年分行业分岗位就业人员年平均工资,该数据来自于2014年国家统计局数据,其中,V1(采矿业),V2(制造业),V3(电力、热力、燃气及水生产和供应业),V4(建筑业),V5(批发和零售业),V6(交通运输、仓储和邮政业),V7(住宿和餐饮业),V8(信息传输、软件和信息技术服务业),V9(房地产业),V10(租赁和商务服务业),V11(科学研究和技术服务业),V12(水利、环境和公共设施管理业),V13(居民服务、修理和其他服务业),V14(教育),V15(卫生和社会工作),V16(文化、体育和娱乐业),P1(就业人员),P2(中层及以上管理人员),P3(专业技术人员),P4(办事人员和有关人员),P5(商业、服务业人员),P6(生产、运输设备操作人员及有关人员)。
如果直接对数据集表1中的数据做双标图分析,可得到图2(a)。显见16个变量之间的关系不能很清楚地区分开,降低了可视化的程度。故对此数据进行双标图分析之前,先用聚类分析进行分类,分类结果如表2。
图2 (a)2014 年分行业分岗位就业人员年平均工资的 协变量双标图;(b)新数据集Y构成的双标图;(c)第一 类Q1数据集构成的双标图;(d)第二类Q2数据集构 成的双标图;(e)第三类Q3数据集构成的双标图Fig.2 (a) The covariance biplot of the average wage of employed personnel from different post divisions and industries in 2014;(b) The biplot was made by the new data set of Y; (c)The biplot was made by the first class data set of Q1; (d)The biplot was made by the second class data set of Q2; (e)The biplot was made by the third class data set of Q3
Tab.1 The average wage of employed personnel from different post divisions and industries in 2014 (Yuan)
表2 表1中原始变量的分类结果及每 一类对应的均值变量Tab.2 The classification results of the original variables and the corresponding mean variables of each class in Table 1
表2中, 每个均值变量Yj是第Qj(j=1,2,3)类原始变量对应的算术平均值,且:
图2(b)是由新数据集Y得到的双标图,每一类中的原始变量及其均值变量得到的新双标图,如图2(c),(d),(e),相关数据计算结果分别见表3、4、5、6。可得到如下结论:
表3 图2(b)中6个观测点中的每一点到原点的距离及其秩Tab.3 The distances and ranks between each of 6 observations with the origin in the Figure 2 (b)
表4 图2(b)中三个均值变量Y1,Y2,Y3的长度及其秩Tab.4 The length and ranks between mean variables Y1,Y2, Y3 in the Figure 2 (b)
表5 图2(b)中三个均值变量之间的夹角余弦值Tab.5 The angles between any two mean variables in the Figure 2 (b)
1)从点的角度,也就是从不同岗位人员的平均工资来看,点2(中层及以上管理人员)距离原点是最远(表3),并且与所有向量都是同方向的,说明中层及以上管理人员在各个行业中工资是最高的。点4(办事人员和有关人员)距离坐标原点最近,说明办事人员和有关人员在各个行业上的工资相差不大,接近总体的一个均值,比较稳定,其次是点1(就业人员)距离坐标原点较近,说明就业人员在各个行业上的工资也是相差不大,接近总体的一个均值。点3(专业技术人员)与所有向量同方向,所以专业技术人员在各个行业上的平均工资较高,但是工资间相差较大。表6中,1(就业人员)和4(办事人员和有关人员)的距离最近,说明在各个行业上的这两个岗位工资是相近的。
表6 图2(b)中6个观测点之间的距离Tab.6 The distances between each of 6 observations in the Figure 2 (b)
2)从向量的角度,也就是从不同行业的平均工资来看。原始数据经分析变为三类,第一类Y1包括:V1(采矿业),V3(电力、热力、燃气及水生产和供应业),V6(交通运输、仓储和邮政业),V16(文化、体育和娱乐业);第二类Y2包括:V2(制造业),V4(建筑业),V5(批发和零售业),V7(住宿和餐饮业),V9(房地产业),V12(水利、环境和公共设施管理业),V13(居民服务、修理和其他服务业),V14(教育),V15(卫生和社会工作);第三类Y3包括:V8(信息传输、软件和信息技术服务业),V10(租赁和商务服务业),V11(科学研究和技术服务业)。
第一类中向量Y1的长度最长(表4),这些行业间的工资差距较大,平均工资较高,处于中等水平。从图2(c)来看,V1(采矿业)和V3(电力、热力、燃气及水生产和供应业)之间夹角最小,说明这两个行业间工资差距较小。V16(文化、体育和娱乐业)行业工资距离此类平均工资Y1最近,且向量长度最短,故此类工资比较稳定。
第二类中向量Y2的长度最短(表4),同一个行业不同岗位人员的工资相差不大,且平均工资较低,但它离主成分轴最近,故它是较稳定的。从图2(d)来看,V4(建筑业)距离Y2最近,其次是 V7(住宿和餐饮业),故这两个行业的工资接近此类的平均工资Y2,较稳定。V12(水利、环境和公共设施管理业)和 V13(居民服务、修理和其他服务业)之间的夹角余弦值很小,向量的长度基本也相同,说明两者的发展趋势是相类似的。V9(房地产业)的工资偏低是由于新政策的实施,房地产股下跌所致。V14(教育)向量的长度较长,偏离均值向量Y2,故不太稳定。
第三类中向量Y3的长度居中(表4),是平均工资很高的行业,这些行业的平均工资在全国各行业里都是遥遥领先的。从图2(e)来看,V10(租赁和商务服务业)向量的长度最长,相应的工资是最高的,互联网的发展和国家出台的新政策带动了软件产品和商务服务业的发展,进而使得该行业就业人员的收入非常高,并带动了V8(信息传输、软件和信息技术服务业)、V11(科学研究和技术服务业)等行业的发展,这个从图2(e)中V8和V11向量几乎重合,向量长度基本相同可观察到。
本文针对数据集中多变量的问题,提出了一种新的双标图分析方法,该方法结合聚类分析对变量间的相关性进行分类,不仅保留了原始数据集的所有信息,而且降低了数据的维度,使得可视化效果增强。并对改进的双标图进行实例分析,通过构造2014 年分行业分岗位就业人员年平均工资的双标图。其结果表明,改进的双标图比原来的双标图可视化程度更好。因此,当数据集中含有较多变量时,采用本文提出的双标图分析方法是一个不错的选择。当然,本文还存在着一些问题,如类的数目的选择,到底选几类是最科学的,还需要进一步的探索。
[1] GREENACRE M J.Theory and Applications of Correspondence Analysis[M].London:Academic Press,1984.
[2] KLAVANS R,BOYACK K W.Toward a consensus map of science[J].Journal of the American Society for information science and technology,2009,60(3):455-476.
[3] GABRIEL K R.The biplot graphical display of matrices with application to principal component analysis[J].Biometrika,1971,58(3):453-467.
[4] GOWER J C,HAND D J.Biplots[M].London:Chapman and Hall,1996.
[5] STRAUSS J S,GABRIEL K R,KOKES R F,et al.Do psychiatric patients fit their diagnoses? patterns of symptomatology as described with the biplot[J].The Journal of nervous and mental disease,1979,167(2):105-113.
[6] CHAPMAN S,SCHENK P,KAZAN K,et. al.Using biplots to interpret gene expression patterns in plants[J].Bioinformatics,2002,18(1):202-204.
[7] KOHLER U,LUNIAK M.Data inspection using biplots[J].Stata Journal,2005,5(2):208-223.
[8] YAN W,HOLLAND J B.A heritability-adjusted gge biplot for test environment evaluation[J].Euphytica,2010,171(3):355-369.
[9] SALINAS D T,GARCIA N R,CONTRERAS E J,et al.On the use of biplot analysis for multivariate bibliometric and scientific indicators[J].Journal of the American Society for Information Science and Technology,2013,64(7):1468-1479.
[10]NOERWIJATI K,PRAJITNO D.Fresh tuber yield stability analysis of fifteen cassava genotypes across five environments in east java (indonesia) using gge biplot[J].Energy Procedia,2014,47:156-165.
[11]ALKAN B B,ATAKAN C,AKDI Y.Visual analysis using biplot techniques of rainfall changes over turkey[J].MAPAN,2015,30(1):25-30.
[12]ALVAREZ I G,VILLARDON M P G,ROSA M R.Analysis of the sustainable society index worldwide: A study from the biplot perspective[J].Social Indicators Research,2015,120(1):29-65.
[13]GOOD I J.Some applications of the singular decomposition of a matrix[J].Technometrics,1969,11(4):823-831.
A method for enhanced visualization of biplot
HUI Yueyue,ZHANG Xiaoqin
(School of Mathematical Sciences, Shanxi University, Taiyuan,Shanxi 030006, China)
Biplot is a visually analytical method, which is widely used. However, when there are many variables in the dataset, the biplot method is applied directly, which will lead to the problem of overlapping together between variables and then it can' t clearly observe the relationship between the variables, so the result of visualization will be weaken and not accurate. For the problem, therefore, a new method of cluster biplot was presented. First, the original dataset is processed by cluster analysis, and get the new dataset, then the new dataset was subjected to the analysis of biplot,which not only retains the all most information of the original dataset, but also makes the effect of visualization better. An empirical analysis for the new method, based on the biopiot of the original data were compared to verify the validity of the method.
biplot; cluster analysis; visualization
1004—5570(2016)04-0062-06
2016-01-10
国家自然科学基金青年项目(71503151)
惠月月(1992-), 女, 硕士研究生, 研究方向: 统计机器学习, E-mail:1498787801@qq. com.
O212.4
A