基于格网坐标转换法的矢量数据脱密方法研究

2022-04-01 14:16:14张寿选

地理空间信息 2022年3期

张寿选

（1.福建省基础地理信息中心，福建福州 350003）

越来越多的行业部门在互联网上开展业务和展示数据，大量政务数据在互联网上传输，而国土、林业、规划、环境、交通等行业的业务数据中均包含空间信息。空间数据在公开发布或在非涉密网络传输时，必须考虑数据安全问题，一旦泄密，可能对国家安全和人民利益造成严重危害，因此必须先进行脱密处理。地理信息脱密时，除需删除涉及经济、民生、军事的重要地物外，还需降低矢量数据的平面精度和高程精度，并对矢量数据中的敏感属性信息进行处理。

近年来，学者们提出了很多矢量数据的平面精度脱密方法，如江栋华[1]等构造二维切比雪夫多项式建立脱密模型，实现了几何精度可控的脱密；于辉[2]等提出了利用三角函数对矢量、栅格数据进行一体化可逆的脱密模型；聂时贵[3]等将待脱密数据与1∶25万公开数据进行叠加，在两套数据上选择均匀分布的同名点，利用ArcGIS的空间校正工具对矢量数据的几何图形进行脱密。矢量数据几何精度脱密时，为了便于数据共享，需考虑脱密时保留拓扑特征，吕海洋[4]等提出了基于CSRBF的保持拓扑与几何特征的脱密方法；傅宏[5]对公众版地图地理要素的脱密方法进行了研究，总结归类了地理要素空间精度脱密的处理方法。

通过平移、线性变换、仿射变换、坐标转换参数等方法脱密后，较容易被还原成较高精度的数据，因此脱密模型必须引入随机变量、抖动等，从而提高脱密的安全性。本文将格网坐标转换法应用于矢量数据的平面精度脱密，给出了格网点的生成方法、偏移量的计算方法、内插方法等具体思路，并采用该方法进行了数据的脱密实验和分析。

1 平面精度脱密关键技术

矢量数据的几何图形是由坐标或坐标序列进行记录的，对平面精度进行脱密，本质就是将坐标值增加一个偏移量，这与不同椭球间的坐标转换非常类似，因此本文尝试采用格网坐标转换法进行数据脱密。

ArcGIS的Spatial Adjustment工具中提供了Rubbersheet方法，可查看ArcGIS的帮助文档。即使经过非线性、随机变量等模型脱密，只要有足够的连接点（links），Rubbersheet变换就可以将数据还原成精度很高的数据。利用Rubbersheet方法进行空间变换时，无需已知数据的脱密模型，只需一定数量的均匀分布的连接点即可，且连接点数量越多，还原的精度越高。这对矢量数据平面精度脱密模型提出了更高的要求，简单的非线性处理脱密方法是无效的，因此本文引入格网坐标转换法对矢量数据平面精度进行脱密。

谢年[6]采用格网点转换法进行脱密，内插任意点的坐标时采用双线性内插法，格网点的偏移量采用随机数产生。该方法适用于偏移量分布区间较小的情况，由于利用格网坐标转换法内插任意点偏移量时，相邻格网是独立进行内插的，若格网间的偏移量分布区间较大，则相邻格网内插的偏移量差异就很大，可能会破坏要素间的拓扑关系。谢年[6]指出每个格网进行小范围的坐标偏移，能保证局部细致拟合以及全网连续的效果，实验区间为±2 m。因此，利用格网坐标转换法进行脱密，若偏移量的分布区间较大，就必须解决格网内插偏移量不连续的问题。

2 格网坐标转换法

格网坐标转换法的优势是将空间划分成数量众多的独立格网，每个格网采用不同的偏移参数，如果格网数量达到几十万，即使采用Rubbersheet变换进行还原，需要选择数万个连接点才能获取较高的还原精度，而人工选择如此数量的连接点几乎不可能完成。格网坐标转换法脱密的思路如图1所示。

图1 格网点偏移量计算与内插方法

1）创建随机点。采用格网坐标转换法进行不同椭球坐标系间的转换时，必须有两套坐标系下的重合点。采用格网坐标转换法进行脱密时，将随机点作为重合点，可利用ArcGIS的Create Random Points工具创建随机点。该工具需要指定生成随机点的约束范围、随机点个数、随机点间的最小距离。随机点覆盖范围应大于脱密数据的范围，以便于后续计算格网点的偏移量。

2）生成随机点偏移量。为了提高格网点坐标转换法的抗攻击性，随机点的偏移量必须随机变化。为每个随机点添加x和y方向的随机数，随机数的分布区间根据脱密的精度设置，国家法律法规对数据平面精度有明确要求。

3）创建格网点。创建格网点时需要指定起始点坐标、格网间距、格网点行列数，其中行数、列数可根据格网间距和脱密数据范围确定，格网点必须能够完全覆盖脱密数据范围。格网点的组织方式示意如图2所示，经度间隔与纬度间隔一般设置为相同的数值，“节点1”的坐标是格网的起始坐标。创建格网点时，必须记录每个格网点的行号、列号，用于快速定位任意点所在的格网。

图2 生成格网点示意图

4）计算格网点偏移量。利用移动转换法[7]计算每个格网点的偏移量，搜索格网点gi周围的随机点，选择距离gi最近的k个随机点，采用反距离权重插值法计算格网点的偏移量。为了保证相邻格网点之间的偏移量变化比较平缓，随机点的个数k可适当增加。移动转换法的示意如图1所示。

5）内插任意点的偏移量。对矢量数据平面精度进行脱密，就是内插任意点的偏移量，给任意点的坐标增加一个偏移量。内插任意点p的偏移量时，首先需计算p点所在的格网，由于p点坐标、格网点的起始坐标、格网间距已知，因此很容易计算得到p点所在格网4个格网点的行列号。假设任意点p的坐标为(xp,yp)，格网的起始坐标为(xs,ys)，x和y方向的格网间距分别为dx和dy，则行号r、列号c的计算公式为：

式中，[]为取整。

通过p点所在格网点的行列号，读取4个格网点的偏移量，再基于4个格网点的偏移量利用反距离权重插值法、多项式等方法计算p点的偏移量，本文采用反距离权重插值法。内插任意点偏移量的方法如图1所示。

3 实验与结果分析

3.1 格网生成

以福建省行政区划缓冲50 km的面作为约束范围，本文利用ArcGIS的Create Random Points工具生成106个随机点，随机点之间的最小距离为20 km，最终生成的随机点分布情况如图3所示。生成的随机点并非数量越多越好，而是需要根据随机数分布区间和格网间距确定。偏移量随机数分布区间越大、格网间距越大，随机点之间的最小距离就应设置越大，生成的随机点个数就越少；反之，偏移量随机数分布区间越小、格网间距越小，随机点之间的最小距离就可适当减小，生成的随机点数量就会较多，这样可以保证后期格网间的偏移量变化较小。

图3 随机点分布图

本文利用C#的RNG Crypto Service Provider产生随机种子，利用Random类生成随机数，随机数的区间为[10'50]，生成的偏移量随机数保留两位小数，并写入随机点的属性表中存储。随机点属性表如图4所示。x方向的偏移量为10.16～49.17 m，y方向的偏移量为10.38～48.49 m，与随机点的偏移量区间基本一致，由此可以判断通过控制随机点的偏移量分布区间，可以很好地控制格网点的偏移量，从而影响脱密后矢量数据的平面精度。

图4 随机点属性表

本文采用C#+ArcObjects编写程序创建格网点，格网点的起始坐标为(115'23.4)，格网间距为0.01°，行数为510，列数为630。覆盖范围如图5所示，由于0.01°格网间距的点在小比例尺上显示太密集，无法分辨，因此采用0.07°格网间距进行示意。查询每个格网点周围的随机点，为了保证格网间偏移量变化较小，搜索格网点周围30个随机点，读取随机点的偏移量，再根据反距离权重插值法计算每个格网点的偏移量。格网点x方向的偏移量为10.28～49.17 m，y方向的偏移量为10.39～48.28 m，与随机点的偏移量基本一致。

图5 格网点覆盖范围

格网点的偏移量计算完成后，本文对相邻格网点的偏移量差值进行了分析，编写程序计算每个格网点与周围8个格网点的偏移量差值，x方向的偏移量最大差值为3.86 m，y方向的偏移量最大差值为3.57 m，说明格网之间的偏移量变化较小。格网点采用C#的struct存储行号、列号、顺序号、x坐标、y坐标、x方向偏移量和y方向偏移量，单个格网点的数据结构如图6所示。利用二维数组存储所有格网点，二维数组的下标与格网点的行号、列号对应，方便读取任意点所在格网的4个格网点的偏移量。

图6 格网点数据结构

3.2 脱密实验

本文选取福建省的高速、国道、省道数据进行脱密实验，共计37 656个要素；在工作站上对脱密进行了耗时测试，工作站CPU为Intel Xeon W-2145@3.7 GHz，内存为128 GB 2666 MHz，耗时为79.6 s。脱密结果如图7所示，原始道路与脱密后道路的局部细节如图8所示。

图7 脱密实验道路数据

图8 原始道路与脱密道路细节对比

3.3 结果分析

福建省全省37 656个道路要素，脱密共耗时79.6 s，说明格网坐标转换法具有很高的效率。对脱密后的数据与原始数据进行拓扑检查发现，脱密后的道路中未出现回折、尖角、自相交等拓扑问题，证明格网间的偏移量较平滑，不会破坏拓扑关系。对局部偏移距离进行了量算，某点的偏移量为47.76 m，与该点距离4.6 km的某点的偏移量为49.24 m，两点的偏移量相差1.48 m，脱密后道路的偏移量是变化的，说明偏移量具有较好的随机性。

本文实验的偏移量区间为[10'50]，如果采用从负值到正值的区间，可以增加格网间偏移量的差异，提高脱密后的抗攻击性。实际使用中，偏移量可根据国家规范和文件要求进行设置。为了使格网间偏移量更平滑，可缩小格网间距，能更精细地反映随机点的偏移量。此外，增加格网点的个数会将待脱密数据划分成更多的区域，从而显著提高脱密模型的抗攻击能力。

格网点和偏移量可重复使用。格网点坐标转换法中引入了随机点和随机偏移量，只要保证格网点和偏移量不变，就可以保证同一矢量数据两次脱密后完全重叠。

4 结语

本文将格网坐标转换法应用于矢量数据的平面精度脱密中，通过控制随机点偏移量的分布区间，可以很好地控制脱密后矢量数据的平面精度。随机点和随机偏移量保证了格网间偏移量各不相同，使得矢量数据平面精度脱密后具有很强的随机性，脱密后的数据还原成高精度数据的可能性很低。减小格网间距、增加格网点数量，可以将脱密数据划分成更多的独立区域，从而提高脱密的随机效果。实验采用覆盖福建省的格网点数据，数量达10万以上，利用移动转换法计算每个格网点的偏移量，保证了格网间的偏移量比较平滑，脱密后能保持拓扑关系。