时会省 朱文军
(河南测绘职业学院,河南 郑州 450015)
地图可以用来表示任何类型的数据,比表格和文字更能有效地表现地理特征。很多制图工作都是统计性的,利用公开发表的各种统计数据,编制的有关经济、人口、社会等方面的专题地图是最明显的“统计”地图,在编制此类地图时要遵循统计原则来处理制图数据[1]。其中,对数据进行分级处理是地图数据处理特别是专题地图数据表达和分析的一种重要方法。
数据的分级处理包括对数据的排序和分析,其中确定分级数和分级界限是统计数据分级处理的重心。统计数据资料分级,是将数据通过列表、绘频率直方图以及计算分析以后,对分析结果作出地理解释,为所编地图寻求合理的分级,以求充分地反映其分布的地理规律性。
分级算法的研究,一直在不断改进发展。20世纪50年代以来,地学研究方法从定性分析发展到定量分析;60年代,多元统计分析应用于地学领域,推动了地图制图数据处理模型的发展;70年代,不少地图制图学者应用统计分析学和信息论分析地图内容,形成了比较系统的地图制图数据处理模型的理论与方法;80年代,模糊数学、最优化方法等现代数学被引入专题地图制图领域,取得了不少成果;90年代以来,许多地图制图学者利用数学形态学、分型理论和小波理论等现代数学对空间数据多尺度处理与表示进行深入探讨,取得了许多研究成果,使地图数据处理模型得到进一步发展[2]。
长期以来,制图要素的分级算法一直备受关注。20世纪70年代以前,制图员从制图学的要求出发,根据经验选择某种数列或级数来分级,分级界限的确定仅取决于分级数据的最大值、最小值和分级数。70年代以后,人们开始用统计学寻找数据分布的自然裂点作为分级界限。我们把用数列和级数分级的方法称为传统分级方法,把从统计学角度研究确定分级界限的方法称为统计分级方法。
用传统方法产生的分级界限有规则变化,易于被读者理解,能增强地图的易读性,提高信息传输的效果。常用的传统分级算法主要有:
(1)数列分级:数列分级的分级界限是某种数列中的一些点,一旦选定了某种数列,则分级界限就完全取决于数据的最大值、最小值和分级数。数列分级的优点是分级界限严格按照数学法则确定,有规律可循,便于对比分析,但它不能很好地顾及数据本身的随机分布特征。数列分级包括等差数列分级和等比数列分级。
(2)级数分级:当人们关注分级间隔的变化时,就要考虑使用级数分级法,直接求得分级间隔。目前,级数分级方法主要有算术级数分级和几何级数分级。
用传统分级方法确定分级界限没有充分利用数据本身提供的大量信息,因而产生的分级方式往往不符合数据的分布特点。在这种情况下,统计分级方法应运而生。这种方法在确定分级界限时,要对数据进行统计分析。确定的分级界限有一定的数学规则,分级结果能反映数据分布特征。
(1)平均值 —标准差分级法:标准差是反映各数据间离散程度的一种方法。按标准差进行分级,需要?
合理的分级是专题地图表现的基础和关键,因此,分级算法模型的实现是专题地图模块的关键技术。一些非专业制图人员对一些分级算法并不了解,只有通过制作专题地图实验来选用合理的分级算法。在进入系统界面后,用户可以根据需求选择制作专题地图的图层和属性字段。由于符号法中的符号均有定位意义,所以用户需要选择记录地理坐标的属性字段输入系统,同时选择自动分级方式或者手动分级方式。
对于用户来讲,友好的交互界面是衡量系统是否实用的重要指标,为此,在充分分析用户需求的基础上,兼顾开发的方式与平台,定制了自动分级模型交互界面。
(1)数据分布直方图的显示
为了选择适合的专题数据分级模型,以制作出符合数据分布特征的专题地图,用户必须对数据的分布情况有一个明确而直观的概念。在自动分级模式界面,首先根据用户选取的需分级的属性字段,读入相应的属性数据,经过排序等预处理后,由开源的Zedgraph.dll绘制出数据分布直方图。数据分布直方图可以让用户直观地认识数据的整体分布特征,并通过鼠标获取每一个柱形所代表的属性数据,从而让用户结合所掌握的数据分级算法的适用范围特征,选择合适的分级方式。
(2)数学分级模型的实现
在系统界面中,为用户提供了分级数、分级方式、取舍精度的选择。
①分级数设置:结合制图数据的分级原则和几何符号的定点符号法特点,为用户提供了3~7的分级数,以供选择。
②分级方式设置:通过对现有数学分级模型的研究和实验,分析其所适应的数据特征、分级误差等,选择一些常用的各有特点的分级算法进行实现。最终为用户提供了等差分级、等比分级、倒数数列分级、等分位数分级、平均值—标准差分级、最优分割分级六种考虑数据类型及其分布特征的分级方法。
③取舍精度设置:计算得到的分级界限有一个共同的缺点,即分级界限是零碎的,不方便地图使用者的记忆和分析,需要将分级界限凑整。分级界限的凑整就是把分级界限的零碎值转换到凑整值,通常凑整值是某个十进制数的倍数。分级界限的起点和终点分别向较小和较大的数据凑整,使分级界限包含整个数据范围。中间的分级间隔按照“四舍六入五成双”的方式就近取整。系统中凑整过程是根据用户的选择进行的,在程序中为用户提供了0.1、1、10和100四种凑整值。
在系统使用过程中,用户无需了解具体的分级计算过程,只需要选择分级的属性字段,根据系统获取其属性值后自动生成的数据分布直方图选择分级数、分级方式和界限凑整值,以此作为参数传给分级模型,然后按用户选择的算法进行相应计算,返回分级界限。分级处理后通过输出接口获取分级界限值和相关的统计结果。每一种分级情况计算出来后,分级界面上通过在原数据分布直方图上绘制折线图和表格(Datagridview控件)显示数据的分级情况。用户可以进行多次实验,选取最合适的分级方式。另外,如果用户需要调整某些分级界限,也可以在分级间隔表格上手动修改分级间隔数据。
数据手动分级模块为用户提供了另外一种分级方式,与自动分级模块的界面相似,也是结合图表(Zedgraph.dll)和表格(Datagridview控件)以分级数据的数据频率直方图为基础。一般数据频率直方图的“谷点”被认为是最有用的分级界限。用户可以选择分类数,系统以该分类数计算等差分级的分级界限,从而显示该组数据的频率直方图。用户可以从直方图上找出数据的分布特征,并确定分级数,用鼠标点击获取较适宜的分割点的数值,并在分级间隔列表中输入相应数据,以便系统获取并确定分级界限。
专题数据中的定量数据多呈离散分布,难以直观反映现象在空间分布上的规律性、由于数量差异而产生的质量差异感、特殊的水平或集群性等,因此对原始数据进行统计分级后建立分级模型是十分必要的。专题数据的合理分级是提高专题地图质量的根本。如何用恰当的方法使分级后的数据客观地反映现象的地理规律性并满足专题制图的要求,是数据分级处理的主要任务。制图者把空间分布的专题数据转换成专题地图时,必须先对数据进行分级处理,将这些数据划入一些等级中,然后将分级后的数据进行符号化,这样制作的专题地图才能达到较好的信息传输效果。
[1]祝国瑞,郭礼珍,尹贡白,等.地图设计与编绘[M].武汉:武汉大学出版社,2001:34-46,67-80,102-123.
[2]孙娟娟.专题地图数据分级模型的研究:现代数学在地图数据分级中的应用[D].郑州: 解放军信息工程大学理学院,2007.
[3]王艳.最优分割算法的计算机程序实现与武汉市洪涝灾害预测[D].武汉: 华中师范大学,2007.