地理数据可用性评估模型的构建研究

2019-07-25 12:27王旭东叶水勇陈清萍

山东电力高等专科学校学报 2019年3期

王旭东，朱兵，叶水勇，陈清萍，蔡翔，王萍

（1.国网安徽省电力有限公司，安徽合肥230022；2.国网黄山供电公司，安徽黄山24500；3.国网安徽信通公司，安徽合肥230061）

0 引言

地理数据广泛应用于电力行业各类业务，包括导航地图、遥感影像、电网设备、传感器、用户等的位置信息，目前主要应用模式是在电力内网发布CGCS2000坐标系的地图，并辅以各类空间信息服务。地理数据隐含高精度空间信息，因此地理数据在共享过程中存在着较大的安全隐患［1-2］。按照国家测绘局、保密局的相关政策法规，电力内网不属于保密网，需要进行抖动处理，以保证地理数据几何精度不能高于50 m；同时，近年来国网公司互联网基础地图应用逐年增加，为了兼顾业务需求及涉密数据安全，也需要开展自主脱密算法研究，以支撑内外网地理数据发布及应用。

地理数据可用性评估模型用于评估脱密前后地理数据在各个指标因子上的变化情况（本文主要研究脱密处理的情况），并不拘泥于脱密处理的地理数据，也适用于坐标转换前后的地理数据、手绘地图相对于真实地图等多种处理场景。

1 地理数据可用性理论基础

1.1 地理数据可用性概念

国际标准化组织在ISO 9241-210标准中对可用性进行了定义。ISO 9241-210的可用性定义为：特定的用户，在特定使用情况下，用于特定用户目标时，系统、产品或者服务所表现出来的有效性、效率和用户满意度。从ISO对可用性的定义中可以看出，衡量可用性的标准有3个指标：有效性、效率和用户满意程度。将此概念拓展到地理数据，我们提出地理数据的可用性是指地理数据被使用时，所表现出的有效性、效率和满意度［3-4］。

1.2 脱密地理数据的可用性问题的来源

脱密地理数据可用性问题的来源分为两部分：一方面，空间数据质量问题，例如由现实地理世界自身不确定引起的数据质量问题。另一方面，脱密过程引入的可用性问题，例如由脱密过程模型引起的问题。

1.3 脱密对地理数据的影响

地理数据几何精度脱密是对地理数据的离散点坐标进行变换，其实质是建立原始地理坐标（x，y）到目标地理坐标（x′，y′）的函数映射，该函数映射可分解为原始坐标（x，y）到x方向扰动量的映射f（x，y）和原始坐标（x，y）到y方向扰动量的映射g（x，y），通常f（x，y）和g（x，y）为同一种函数模型。如公式（1）：

几何精度脱密模型主要包括线性模型、非线性模型、混合模型、神经网络［5-6］。无论是采用哪种脱密模型，都能对地理数据加以不均匀的扰动，产生一定程度的影响，达到保密效果。因此探讨脱密技术对地理数据的影响是脱密地理数据可用性研究的基础。

2 地理数据可用性评估指标的度量方法

在地理数据中，通常用点、线、面三类数据表示各类地理实体，从而可以将地理数据划分为点群、线群和面群三类空间群组目标［7-8］。对于不同的空间群（组）对象（点、线、面），结合变化处理对数据的影响，分别采用不同的度量方法。并在此基础上，建立相应的度量指标，从而可以进一步用来定量地分析和评估地理数据的可用性问题。下面主要探讨变化前后空间目标的可视化效果度量问题。

2.1 点群目标的相似性度量

单个地理空间中的点目标是一个没有形状、没有大小的空间图形，由单独的点要素组成的点群要素是空间分布的重要对象。点群目标在地图上有大量对应的实例。对空间点群目标相似关系进行研究，需要分别研究点群目标的空间关系和几何特征。

2.1.1 空间点群目标方向关系相似性度量

现实空间的点群分布，通常是描述带有一定的方向偏离的地理现象［9-10］。如某段高速公路上发生的交通事故，其发生位置通常会表现为由这段高速公路的形状决定的线状模式（David W.S.Wong等，2008）。本文采用标准差椭圆对空间点群目标的这种方向分布进行描述。采用点群的标准差椭圆来定义空间点群方向相似度和距离相似度，既考虑到实际空间点群目标的地理分布，又是对点群目标作整体考虑，符合视觉的Gestalt认知原则。

本文对目标点群生成标准差椭圆，计算其方向偏离程度来度量点群目标方向相似度，并在此基础上，根据目标点群的标准差椭圆的长、短轴之间的关系来进行点群目标距离相似度的度量。

标准差椭圆的圆心，利用算术平均中心计算得到，如公式（2）-（3）：

式中：（xi，yi）为每个要素的坐标，为算术平均中心，（SDEx，SDEy）为标准差椭圆的圆心。

标准差椭圆的方向，x轴为准，正北方向为0度，顺时针旋转θ，计算公式如（4）-（7）：

标准差椭圆的长、短轴的长度计算公式如（8）～（9）：

对空间点群目标生成标准差椭圆，点群目标的主要分布方向可用椭圆的长轴方向进行表示。那么该方向与x轴的夹角θ的取值范围为［0，π］。则对标准差椭圆夹角分别为θ1和θ2的两个点群来说，其方向相似度如式（10）：

当两点群的标准差椭圆方向相互垂直时，点群之间的空间方向相似度为0；当两点群的标准差椭圆在同一方向时，之间的空间方向相似度为1。

2.1.2 点群要素距离关系相似性度量

前文中点群空间方向相似度描述的是方向偏离特征，但无法描述点群中要素的集中程度。可采用标准差的长、短轴的距离之比来描述点群中要素的集中程度。对标准差椭圆长、短轴分别为a1、b1和a2、b2的两个点群来说，定义其距离相似度如式（11）：

式中：空间距离相似度是指点群中点要素分布的集中程度。

2.1.3 点群要素几何特征相似性度量

由于点数比较简单，单独对点数进行讨论并无太大的意义，且本文在点群拓扑相似度的计算中隐含了对点数的描述，同时空间方向相似度与空间距离相似度隐含描述了离散点群在空间的分布趋势［11］，因此，对于空间点群要素的几何特征描述，论文主要通过点群分布范围来对空间点群目标的几何相似性进行度量。

文献［4］利用Delaunay 三角网进行“剥皮”操作从而得到点群的分布范围。本文采用该方法对点群构造边界并形成点群的范围多边形，通过对空间构建范围多边形，将空间点群分布范围相似性度量转变为范围多边形形状相似性的度量。

考虑到分布范围相似度的度量需要具有旋转、平移和缩放不变性，文献［5］提出了一种形状描述函数来计算面要素之间的形状相似度，如式（12）：

式中：f（li）为点群最小外包多边形的描述参数，即点群外包多边形各点到形心点的距离。

2.1.4 点群要素综合相似性度量

如前文所述，在分别计算出空间点群方向相似度、距离相似度和几何特征相似度后，考虑到空间要素间的空间关系和几何特征分布，通过其对空间点群要素相似度的影响分析，因此对上述计算出的空间点群目3 个相似度度量指标分别赋以0.4、0.3、0.3的权值，并参与到最后的计算中。这样变化前后地理数据集中点要素的综合相似度计算公式如（13）：

2.2 线群要素的相似性度量

线状要素包括线状表示的河流、道路边界等［12］。所以对线状要素进行分析具有重要意义。线群要素是有单个线要素组成的，在对变化前后地理数据中的线群要素进行研究时，既要注重线群要素的整体描述，同时还要把变化手段、技术处理考虑进来以进行相似关系的判断。

2.2.1 线群要素方向关系相似性度量

这里，我们对于单个线要素的方向表示采用首末端点连线方向来表示。

文献［7］提出利用解析几何的方法，采用独立于空间线状要素之外的直接坐标系对线状要素整体进行统计，计算整个线群要素的方向均值，利用方向均值的象限角度对线群要素的空间方向关系进行定量描述。方向均值的计算公式如式（14）：

式中：θv为各个线要素的方向，θR为线群要素的方向均值。

若变化前后线群要素的方向均值分别θ1与θ2，那么两组线群要素的空间方向关系相似度的计算方法如式（15）：

若变化前后线群要素的方向均值呈垂直时，线群要素空间方向相似度为0；若变化前后线群要素的方向在同一条直线上时，认为两者完全相似，即线群要素空间方向相似度为1。

2.2.2 线群要素距离关系相似性度量

方向均值仅描述了空间线群要素在某一方向上的集中趋势，但不能有效描述组成线群的各个要素之间方向的不一致性程度，因此空间线群要素的空间距离关系相似度需要描述各个要素之间方向关系的不一致性程度。文献［7］提出用环形方差来对方向距离关系进行度量，环形方差即线群要素之间的距离关系度量值的计算公式如式（16）：

环形方差即线群距离关系的值域在0 和1 之间。当OR=0 时，表明线群的集中方向之间的跑离为0；当OR=1 时，认为各要素与线群的整体方向的距离最远。那么线群要素之间的距离相似度计算方法如式（17）：

2.2.3 线群要素几何特征相似度度量

长度是线状要素的基本特征［13］。地理数据，线状要素是由一系列顺序表达的坐标串来表示的，其长度用坐标串中点与点之间的直线距离累加来近似计算。线的曲折系数（或曲折度）可简单定义为线的实际长度和其直线长度的比值。曲折度反映了线状要素的弯曲程度，是其分布形式的统计特征（文献［6］）。其计算如式（18）：

式中：L为线要素的长度，S为线要素首尾端点的直线距离。那么可以计算线群要素1 和2 的几何相似度，计算如式（19）：

2.2.4 线群要素综合相似性度量

如前文所述，在分别计算出空间线群方向相似度、距离相似度和几何特征相似度后，考虑到空间要素间的空间关系和几何特征分布，通过其对空间线群要素相似度的影响分析，分别对上述计算出的3 个相似度分别赋 0.4、0.2、0.4 的权值。那么变化前后地理数据集中线要素的综合相似度计算如式（20）所示：

2.3 面群要素的相似性度量

在地理数据中，以面状要素表示的地理对象主要有水域、行政区划、建筑物等［14］。以线状要素表示的水洗（如单线河流等）不同，水域通常在地理数据中的表现形式一般为面状要素。行政区划是指国家对辖区所进行的行政区划，可分为国家级、省级、县市级、乡镇级。

面群要素在地图上有大量对应的实例。对空间面群要素相似关系进行研究，需要分别研究面群要素的空间关系和几何特征。

2.3.1 面群要素方向关系以及距离关系相似性度量

地理数据集中空间面群要素所表示的实体对象主要以人造建筑为主，多为比较规则的面状要素，因此可生成面状要素的最小面积外接矩形，如图3 所示。文献［8］利用面状要素的最小面积外接矩形的最长边来代表该面状要素，那么该面状要素的方向就是其最小外接矩形的最长边的方向，则可将二维的面状要素降维至一维的线状要素。这样就将二维的面群要素转换为一维的线群要素，对于线群要素的方向关系、距离关系相似性度量已在前文中给出。

2.3.2 面群要素几何特征相似性度量

通常描述面状要素几何特征的指标包括多边形的面积、周长、紧致度、边数、面群中包含的多边形面状要素、顶点数、分维数等。对于处理前后的地理数据中面状要素而言，面状要素中多边形的边数和顶点数实际上是保持不变的，而受影响较大的则是多边形的形状。因此在计算空间面群要素几何特征相似性时，不考虑多边形的顶点数和边数。对于描述面状要素的几何特征值，结合面状要素的特点以及变化处理对面状要素的影响，可以采用紧致度来描述空间面群要素的几何特征。

紧致度用来描述一个给定的多边形区域离某一特定形状面的偏离程度。面的紧致度采用其面积与周长之间的比率描述。对于多边形X，其紧致度C（X）如式（21）：

式中：P（Xi）表示多边形Xi的周长，Are（Xi）表示多边形的面积，那么空间面群要素的几何相似度如式（22）：

2.3.3 面群要素综合相似性度量

如前文所述，在分别计算出空间线群方向相似度、距离相似度和几何特征相似度后，考虑到空间要素间的空间关系和几何特征分布，通过其对空间线群要素相似度的影响分析，对上述计算出的三个相似度分别赋 0.3、0.3、0.4 的权值。这样变化前后地理数据集中线要素的综合相似度计算如式（23）：

2.4 地理数据的综合相似性度量

地理数据是不同类型的空间对象的混合体，包含点、线、面对象［15］。因此变化前后地理数据综合相似度应充分考虑变化前后点、线、面要素的群组相似度。在地理数据中，分析各类要素对数据视觉效果的影响可知：人们是基于背景要素来获取其所处的空间位置。因此在对地理数据变化前后整体相似性度量时，应分别对点、线、面要素赋予不同的权值，即对点要素综合相似度、线要素综合相似度、面要素综合相似度分别赋予0.2、0.3、0.5 的权值。那么，变化前后地理数据的可视化度量模型如式（24）：

3 地理数据可用性评估模型

根据地理数据的可用性评估内容，可用性评估涉及到变化前后地理数据可视化效果、可靠性以及有效性3 个方面，因此地理数据可用性评估应综合考虑这三方面的影响［16］。由于各个指标在评估中的重要性并不完全相同，可通过不同的定量指标，对地理数据可用性进行综合评估。

在对地理数据可用性评估的过程中，从评价内容的三方面给出不同指标值，按照表（1）的规则对地理数据可用性进行评估：

表1 地理数据可用性评价等级表

对表（1）进行说明：

1）地理数据可视化效果评估过程中，变化前后地理数据的综合相似度计算结果低于85 时，认定数据视觉效果严重失真，评定该地理数据可用性为不合格。结果在［85，90］范围内的，可能出现个别要素失真，但不影响整体可视化效果，可用性为合格。结果大于90 时，我们认为，地理数据变化前后综合相似度极高，不会出现视觉效果失真。

2）地理数据可用性评估中的可靠性评价指标在电力行业中有重要作用，因此我们对这一指标有更加严格的要求。它是用点、面相对位置准确度来衡量的，采样规模庞大时，结果低于95，则会出现变化前后地理数据中大量点、面相对位置关系不一致的情况，不能满足电力行业的应用需求。结果在［95，99.99］会出现个别点、面关系不一致现象。结果大于99.99，则认为在一定的采样规模下，不会出现点、面相对位置不一致的情况。

3）地理数据可用性评估中，有效性是用空间相关关系一致性来衡量，空间相关关系在地理数据可用性和电力行业的应用需求上都至关重要，因此对于该指标我们也严格控制。在采样规模庞大时，结果低于95，则会出现变化前后地理数据中大量点、点空间相关关系不一致的情况，导致线、面的空间相关关系也出现不一致的情况，对地理数据的使用产生误导。结果在［95，99.99］会出现个别点、点空间相关关系不一致的情况，不会影响全部地理数据。结果大于99.99，则认为在一定的采样规模下，不会出现点、点空间相关关系不一致的情况。

除了上述指标评价之外，我们对地理数据进行敏感性检查，若存在不符合国家相关规定的要素，则评定该地理数据可用性为不合格。

4 结束语

本文在对地理数据可用性基本理论和地理数据脱密理论分析的基础上，对地理数据（主要针对脱密处理）的可用性评估进行剖析，研究了地理数据可用性概念框架，并根据脱密地理数据可用性问题来源，提出了基于可视化效果、可靠性和有效性的可用性综合评估模型，并根据地理数据可用性评估结果预判其在应用场景中的可用性。