高维数据可视化在统计分析中的作用

2009-07-30 08:30王德青
数据 2009年7期
关键词:可视化雷达指标

王德青

■ 运用可视化方法的必要性

在对社会、经济、技术系统的认识过程中,都需要收集和分析大量表现系统特征和运行状态的指标数据信息。例如,要衡量一个地区的经济发展,需要观测的指标有:地区生产总值、劳动生产率、税收、人均GDP等;要衡量一个城市的综合发展水平也需要观测很多指标,如:工业总产值、非农业人口数、人均住房面积、工资总额、城乡居民储蓄率等等,在科研、生产、日常生活中,受多种指标共同影响和作用的现象是大量存在的,举不胜举。

这类原始数据集合往往由于样本数量巨大,刻画系统特征的指标变量众多,并且带有动态特性,形成规模宏大、复杂难辨的数据海洋。如何分析和认识高维数据集合中的内在规律性,简明扼要地把握系统的本质特征;如何对高维数据集合进行最佳综合,迅速将隐没在其中的重要信息集中提取出来;如何充分发掘数据中的丰富内涵,清晰地展示系统结构,准确地认识系统元素的内在联系,以及直观地描绘系统的运行历程,这些是科学决策和决策支持系统建立的基础,是决策者做出科学决策的根据。

在数据信息的分析过程中,对直观图像的观察是一种重要的分析手段,它可以更好地协助系统分析人员思维与判断,及时发现大规模复杂数据群中的普遍规律与特殊现象,大大提高数据信息的分析效率。在当今的决策支持系统理论与方法的研究中,将抽象空间或高维不可见空间中的信息以及一些更复杂的现象转换成直观的平面图示,这种面思维的工作方式,能够极大地提高决策人员的洞察能力和增加决策者的知识,是实现决策支持系统高效率的最佳途径之一。

■ 可视化方法改进后的优长

在统计分析过程中,由于分析人员尽可能周到地选取有关指标,建立的指标体系中往往会出现信息重叠的现象。信息重叠的危害表现在:一方面会使传统的最小二乘回归分析失效,另一方面在分类或聚类过程中会过分地夸大某个指标在系统分析中的作用,出现“大数吃小数”现象,以致影响分析的客观性,妨碍决策者的正确判断。

为了解决上述问题,往往对指标系统进行简化处理,有一个特殊情况尤其引起人们的关注:如果能将一个p维指标系统有效地降至二维就可以在平面上描绘每一个样本点,以直接观察样本点或指标之间的相互关系及样本点间的分布特点和结构。所以主成分分析使高维数据点的可见性成为可能。概括地讲,主成分分析是一种对多指标系统进行简化的方法,它能够在保证数据信息损失最小的前提下,对高维数据集合进行降维处理,揭示系统的主要因素。特别是当高维数据降为二维时,可以在平面图上描绘系统指标的相互关系,使高维复杂系统具有可见性,大大提高决策者的洞察能力和分析效率。提取的主成分指标尽管多于三个,但是主成分指标之间几乎不相关,因此可以用雷达图来弥补主成分可视化的不足,主成分分析及雷达图内容多数教材都有详细介绍,在此不予赘述。以提取的主成分指标代替原始指标绘制雷达图,便可将高维数据降维可视化。

下面的内容便是笔者科研项目的结果,从最终的结果来看,这种改进的可视化方法效果明显改善。采用综合评价指标对全国35个中心城市的综合发展水平进行评价,选取了包括两个方面的15个具体指标,分别是非农业人口、 工业总产值、货运总量、批发零售贸易餐饮业网点数、批发零售贸易餐饮业人数、 财政收入、城乡居民年底储蓄余额、职工人数、工资总额、人均居住面积、城市煤气普及率、人均公共绿地面积、人均拥有铺装道路面积、人均公共绿地面积和每万人拥有公共厕所数,分别记为X1,X2,⋯,X15。其中前9个指标为社会经济指标,后6个指标为城市公共设施水平指标。调用SPSS中因子分析程序,对15个指标的原始数据进行标准化、同趋化处理,最终得到四个主成分指标:F1 ——城市规模及经济发展水平指标, F2——城市基础设施水平指标,F3——煤气公因子,F4——城市公共卫生指标(见下表)。

从下图看出,城市A几乎在各个公因子上的得分都是最大值,A城市对应的雷达图面积在全国城市中也位居前列,因此说明A城市的综合发展水平在全国处于领先地位。B城市虽然在F1、F2、F3上的得分很高,其对应的雷达图面积也较大,但B城市在城市基础建设上的得分较低,因此B城市在城市建设时需要在基础建设方面加强力度。C城市在各公因子上的取值、对应的雷达图面积都处于中等地位,因此两城市在全国属于中等发达城市。为跨入全国发达城市行列,两城市各方面都需加快发展。D城市的四个公因子取值都是35个城市中最小或者接近最小的,其对应的雷达图面积也是最小的,因此可以认为D城市是不发达城市。D城市需在各方面加快发展才能赶上其它城市的发展速度,由于F1(城市规模及经济发展水平公因子)的方差贡献最大,F1是城市发展水平的主要代表方面,因此在经济能力受限条件下,D城市应该集中主要精力加快城市规模及经济方面的发展,从而带动其他方面的发展,这也是抓住了工作的重心。

■ 需要注意把握的问题

1.由于提取的主成分对原始数据信息的贡献不同,因此可以根据方差贡献率将雷达图对应的圆按比例划分。一般情况下不需要使用所有的主成分绘制雷达图,只需选取前几个方差贡献较大的主成分即可,并结合因子分析对主成分重新命名。

2.数学上可以证明主成分指标之间是不相关的,因此可以在两主成分轴之间加入一条间隔轴,这样就可以使指标之间的取值对图形面积的影响相互独立,便于后续工作中结合雷达图面积,构造评价函数对样本的综合评价。

3.主成分分析计算的结果并不能完全消除信息重叠的现象,因此在建立指标体系时,不能盲目地采取“多多益善”的方式选取过多的指标。在进行研究之前,必须结合系统的有关专业背景,慎之又慎地确定变量系统。

猜你喜欢
可视化雷达指标
数据可视化设计在美妆类APP中的应用
思维可视化
主要宏观经济指标及债券指标统计表
隐形飞机哪里躲
主要宏观经济指标及债券指标统计表
复变函数级数展开的可视化实验教学
复变函数级数展开的可视化实验教学
复变函数共形映射的可视化实验教学
复变函数共形映射的可视化实验教学
主要宏观经济指标及债券指标统计表