孙兴华 邹娟茹
摘 要:该文以机载LIDAR点云数据处理为研究对象,首先分析了LIDAR数据的特点和数据处理思路,进而分析了LIDAR点云数据存储和检索策略,在此基础上,作者探讨了基于规则格网重采样生成DSM的方法和思路,全文是作者长期工作实践基础上的理论升华,相信对从事相关工作的同行能有所裨益。
关键词:机载 LIDAR 点云 数据 DSM
中图分类号:P228 文献标识码:A 文章编号:1672-3791(2015)05(b)-0001-02
1 LIDAR数据处理概述
1.1 LIDAR数据的特点
从严格意义上讲,航空激光雷达系统获取的数据包括位置、方位/角度、距离、时间、强度等飞行过程中得到的各种信息。而实际应用中,人们接触和使用的是与具体时间及发射信号波长一一对应的点坐标及对应的强度等。作为一种非成像技术,航空激光雷达数据在内容、形式等方面具有很多自身的特点。
(1)从内容上讲,航空激光雷达数据是分布于对象表面的一系列三维点坐标。值得注意的是,多次回波数据得到的点坐标可能对应着不同的表面,首、末次信号分别对应树冠和地面,这种特性在某些场合可以发挥重要作用。例如,在相邻扫描带上植被或其它具有不规则形状的物体可能会具有不同的高度,若用它们进行匹配可能会产生粗差,使用末次回波信号就可以避免匹配过程中不可预测的粗差问题。与记录反射/发射能量的强度数据相比,航空激光雷达数据在提取空间信息上更加便捷。 (2)激光雷达数据在形式上呈离散分布。这里“离散”是指数据点的位置、间隔等在三维空间中的不规则分布,即数据分布无规律性。(3)数据形式的另一个特点是扫描带中数据分布不均匀——不同位置的点云密度不同,造成这种情况的主要原因是激光扫描仪所采用的扫描方式。激光扫描仪所采用的扫描方式有圆锥扫描,线扫描和光纤扫描。不考虑地形起伏的影响,在圆锥扫描方式中,扫描带两侧数据密度大,中间部分稀;线扫描方式的情况类似;在光纤扫描方式中,扫描线方向上的数据密度大于垂直扫描线方向上的。其他原因还包括飞行速度、扫描仪与地形/地物的相对位置/方向及航高等。例如,对建筑物的倾斜屋顶而言,朝向扫描仪方向的屋顶会比背向扫描仪方向的屋顶反射更多的信号,在数据密度较大时两个屋顶平面上数据密度就会表现出差异。(4)尽管目标点的三维坐标是航空激光雷达的主要数据形式,但其数据类型并不局限于此。强度信号是另一个有用的信息源,它反映了地表物体对激光信号的响应。由于一些技术上的原因,还没有得到多少实际应用。目前有用强度信号作为树种分类的依据事例。
1.2 LIDAR数据处理
LIDAR数据处理包括原始数据预处理和点云数据后处理两个阶段。原始数据预处理阶段主要包括滤除雷达噪声,对记录的原始信号、时间参数、距离参数、GPS和INS数据进行归化处理、坐标变换,以得到地面目标的三维(x,y,z)点云坐标数据。坐标的格式可以根据用户的要求定义,即可以得到不同的数据格式文件。点云数据后处理就是对得到的地面目标的三维点云坐标数据进行分离处理。具体地说,由于激光雷达点云数据分布在不同的目标上(如图1所示),后处理就是将落在地形表面上的点(即所谓的地面点)与那些非地形表面上的点(譬如图1中落在汽车上、树木或植被上以及落在房屋上的点)进行有效而准确的分离。只有高精度及准确而可靠地分离不同信息后,才可能有效地将这些数据用于不同的目的,例如:得到DEM数据、测量树的高度、获取城市的三维模型等。对三维点云坐标数据进行有效的后处理是激光遥感系统最主要的组成部分。
尽管LIDAR技术在获取地面点三维坐标方面具有效率高、全覆盖、三维测量等优良的技术特性,但是其数据量的庞大、复杂、无规律等特点始终困扰着后期的数据处理。离散LIDAR点云数据后处理中碰到的第一个问题就是如何存储和快速检索这些庞大的离散数据。如果没有一个合适的存储结构和一个恰当的检索方法,就会影响后续数据处理的速度和效率。一个好的存储检索方案可以大大化简算法难度,极大的方便后续数据处理的实现,从而使整体算法都得到改观,所以这一问题的解决具有十分重要的意义。在针对LIDAR数据的压缩简化技术还不成熟的情况下,一个好的存储检索方案对于整个数据后处理都至关重要。为了满足数据后处理的要求,存储检索方案应该同时具备以下特征:(1)高空间利用率,使数据处理的空间代价最小并保持数据无损。(2)检索快速方便,算法易于实现。(3)模块化强,自身发生变化时,对其它算法的影响最小化。
因此,LIDAR数据的存储检索研究就是要得到符合以上特征的算法方案,从而为后续的数据处理打下扎实的基础。在分析研究其它方法的基础上,该文提出了一种相对简单的规则地址格网检索(GAS-Grid Address Select)算法对离散LIDAR点云数据进行存储与检索。
2 LIDAR点云数据存储与检索
2.1 规则地址格网检索(GAS-Grid Address Select)算法思想
规则地址格网检索(GAS)算法的基本思想是:离散LIDAR点云数据按划分的规则格网进行有序的存储,数据检索的逻辑结构是规则地址格网,二者由地址映射函数对应起来。
按照GAS算法的思想,预处理所要执行的操作有:从原始数据文件中提取本文需要的数据,即(X,Y,Z)三维坐标,并顺序规则化离散点。此外,为了后续的操作方便还要确定文件的格式和向其中加入必要的元数据信息,即(X,Y,Z)三维坐标的最值。
之后就可以用它来定义数组为离散数据分配内存。
接下来,定义几个数据处理函数来完成预处理任务,主要包括以下几点。
(1)原始数据的读入函数。
将原始数据文件(ASCII码文本格式)中的数据读入计算机内存,存储在由RPoint结构体定义的数组中,并获得总点数(n)。
(2)数据处理函数。
数据处理函数由X坐标的排序函数、Y坐标的排序函数、在X坐标1m范围内对Y排序的处理函数和求Z坐标最值的函数组成,完成对离散数据进行“之”字形排序处理,并获取X、Y、Z坐标的最大和最小值,是离散数据预处理的关键部分。其中对X、Y坐标排序时用的是快速排序算法,求最值用的是比较法。
(3)处理后数据的输出函数。
该函数生成的文件内容包括离散点总个数(n)、离散点中X、Y、Z坐标的最大、最小值和离散点的X、Y、Z坐标数据,同时该函数还去除了原始数据中的冗余数据即X、Y、Z坐标完全相同的点和没有用到的反射强度值,以及可能的错误点等。通过以上预处理程序对原始数据进行处理后就生成一个ASCII码文本文件,文件的第一行为离散点总个数(n),第二行为X、Y、Z坐标的最大值,第三行为X、Y、Z坐标的最小值,接下来是顺序存储的离散点的X、Y、Z坐标数据,这些数据是按X坐标差小于1m间距“之”字形排列的。
2.2 规则地址格网(GIT-grid index table)的建立
规则地址格网建立的基本方法是:根据格网划分尺度将坐标区域划分成规则格网,对预处理后的数据进行地址映射得到其存放地址,记录落入每一个格网中的离散点个数和第一个离散点的存放地址。先定义一个存储三维坐标数据的结构体Point,将处理后的数据存储在此结构体中。然后用这个结构体定义一个二维数组来表示格网,形成格网的存储结构。之后确定格网的原点坐标,再通过数据的坐标值对格网进行处理(即将数据的地址装入对应的网格)这样规则地址格网就建立起来了。
2.3 基于规则地址格网的数据检索
规则地址格网建立起来之后,每个离散数据点就会落入对应的格网单元,就可以安全、准确、高效的实现离散LIDAR点云数据的快速检索。当进行内插或数据检索时,首先判断内插所在的格网单元,根据需要取出当前格网单元或邻域(如周围3×3格网)的全部数据,避免了内插过程中逐个数据的搜索,使得查找速度大大提高,特别是海量数据的处理。根据检索区域的形状不同,检索函数也千差万别,但其中最基本的是单个网格检索函数。就像点组成面一样,单个网格可组成任意形状的检索区域,所以其它形状的检索函数只需要对单个网格检索函数稍做修改或者多次调用单个网格检索函数就可获得。例如:将单个网格检索函数的主体部分加上确定矩形区域的循环就可转化为矩形检索函数,从而使得检索函数的设计变得十分容易。这些都充分体现了GAS算法在离散数据检索方面的特点。
3 规则格网重采样生成数字表面模型(DSM)
3.1 DSM逐点内插理论基础
基于不规则分布采样点的DSM建立实质上就是离散数据规则格网化的处理过程。通过不规则分布数据直接建立DSM通常采用逐点内插法。所谓逐点内插,是以内插点为中心,确定一个邻域范围,用落在邻域范围内的采样点来计算内插点的高程值。其基本步骤如下。
(1)定义内插点的邻域范围;(2)确定落在邻域内的采样点;(3)选定内插数学模型;(4)通过邻域内的采样点和内插数学模型计算内插点的高程。
为实现上述步骤,逐点内插法需要解决以下几个问题。
(1)内插函数,逐点内插法的内插函数决定着DSM的精度、连续性、内插点邻域的最小采样点个数和内插计算效率。内插函数常常与采样点的分布有关,目前常用的适合于离散分布采样点的内插函数有曲面拟合、加权平均内插法等。(2)邻域大小和形状,在逐点内插中,邻域的作用是选择参加内插的采样点。逐点内插法的邻域大小、形状和位置随内插点的位置而变动。邻域确定一般用在离散分布采样点的DSM建立中,常用的邻域有圆形、方形等。(3)邻域内数据点的个数,邻域内数据点全部参加内插计算,用来进行内插计算的采样点不能太多也不能太少,太多影响计算精度(对内插计算的贡献程度太小)和处理效率,太少则不能满足内插函数的要求,邻域点的确定一般与具体的内插函数有关,通常认为4~10个点是比较合适的。邻域数据点的个数常常决定着邻域范围的大小。邻域内的点数也与采样点的分布密度有关。(4)采样点的权重,采样点的权重是指采样点对内插点的贡献程度,现今最常用的定权方法是按距离定权,即反距离权。逐点内插方法由于计算简单,应用比较灵活,内插效率较高,而成为目前生产中常采用的方法。
3.2 距离加权平均内插生成数字表面模型
在建立了规则地址格网检索算法的基础上,该文利用逐点内插法中的距离加权平均法来生成数字表面模型(DSM),具体步骤如下。
(1)确定内插点所在的格网单元。
由测区内所有激光采样点X、Y坐标的最大、最小值可以得到测区的范围,再依据采样间隔就可以计算出DSM格网的大小。
(2)规则地址格网检索邻域内的点。
利用距离加权平均法进行内插计算,需要选取与插值点距离最近的若干个点来参加计算。最简单的方法就是计算内插点与周围采样点的距离,然后从中选出与内插点距离最近的若干点。这种方法计算量大,影响到插值速度。为解决这一问题,可选用一定的邻域搜索区域,根据距离加权平均法内插数学模型对采样点数量的要求,不断调整搜索范围,直到满足要求为止。
(3)权值的计算。
由于地形的自相关性,较近的采样点对内插点的影响要大一些,因此常常用内插点和采样点之间的距离来刻画采样点对内插点的贡献程度,即距离越近,权值越大,反之越小。
(4)计算内插点的高程值。
定义了采样点的权,并获得了内插点邻域范围内的采样点,就可以利用距离加权平均法进行DSM内插。
4 灰度量化生成DSM深度影像
为了直观地表示出LIDAR数据的内容信息,将由离散LIDAR点云数据规则格网重采样生成的数字表面模型(DSM)按照高程进行灰度量化,得到同灰度图像一样的DSM深度影像。这就为后续的基于数字图像处理技术的DSM深度影像处理做好了准备。具体做法是:搜索DSM中所有的LIDAR数据点,得到高程最大值和最小值,对高程进行量化,得到每一点的像素灰度值;同时将DSM三维点坐标中的X、Y坐标转化为DSM深度影像的二维横、纵坐标、,一个坐标点对应一个像素点,就生成了同DSM格网大小相同的DSM深度影像。
(1)影像的灰度值和DSM中LIDAR数据的高程值成线性关系,高程值越高对应的像素灰度值就越高,反之,则越低。(2)在平坦城区,影像上地面部分的灰度值变化不大,且像素的灰度值低于建筑物部分。在影像的灰度直方图上,往往最高的波峰由地面部分LIDAR点的像素形成。(3)由于LIDAR光束在较高建筑物边缘常和墙面相切,导致建筑物边缘数据不准确,因此在灰度影像上建筑物边缘常呈锯齿状。DSM深度影像其独特的特点为引入数字图像处理的方法提取建筑物奠定了基础。
参考文献
[1] 冯仲科,杨伯钢,罗旭,等.应用LIDAR技术预测林分蓄积量[J].北京林业大学学报,2007(S2):45-51.
[2] 刘永霞,胡涌,冯仲科.基于LIDAR数据的林冠层三维信息模型的提取与应用[J].北京林业大学学报,2007(S2):66-69.
[3] 王永平.机载LIDAR数据处理及林业三维信息提取研究[D].北京:中国测绘科学研究院,2006.
[4] 贾广帅.机载激光雷达数据特点和滤波方法研究[D].北京:北京大学,2007.