宋佳阳
(辽宁省鞍山水文局,辽宁 鞍山 114000)
当前河流数字化提取随着地理信息技术快速发展已成为区域河流调查和评价的主要方式,水利普查已经完成了流域面积50km2河流数字化提取工作,但对于流域面积在10~50km2小型河流还未开展数字化提取工作,而对于鞍山地区而言,由于位于辽宁东部山区,河流水系较为复杂,尤其是小型河流分布较多[1]。为补齐鞍山地区河流数字化数据底板,开展对流域面积在现10~50km2小型河流数字化提取工作,由于这部分河流数目较大,逐条河流提取需要消耗大量的人力、物力。为提高河流数字化提取的效率,国内开展过相关研究,并取得一定研究成果[2-7],这其中河流数字化并行提取算法,可显著提高河流数字化提取的精度。近些年来,具有密度聚类算法的河流数字化并行提取方法得到一定程度的应用,通过实例应用研究[8-14],相比于传统串行算法,其河流提取精度得到明显提升,但在小型河流数字化并行提取中还未得到相关应用,为提高鞍山地区小型河流数字化并行提取的效率,从工作实际出发,引入密度聚类算法,结合地理信息软件,对鞍山地区10~50km2小型河流进行并行数字化提取研究,研究成果对于区域中小型河流数字化并行提取具有重要参考价值。
国内对于河流数字化提取的方法已有较为成熟的成果,本文重点对小型河流并行提取的密度聚类算法进行介绍,该算法通过对并行提取河流之间的空间距离进行分析后建立其密度函数,对密度函数进行不同维度样本集合的势度函数pi(0)进行计算:
(1)
式中,n—河流提取空间维度;a—提取区域的搜索半径,m。
a的计算方程为:
(2)
其中搜索半径的运算基础为势度函数计算值,该搜索半径在较大数据样本情况下收敛度相对较低,为此采用密度函数对其并行聚类进行计算:
(3)
式中,D—搜索半径范围内的聚类值;fd—密度聚类系数。
对搜索半径范围内的聚类值进行初始密度计算:
(4)
在计算完成河流并行提取样本数据系列的初始密度后采用欧几距离矩阵方程对其空间聚类密度进行计算:
(5)
在进行空间聚类密度计算后对其河流并行提取的复杂度进行计算:
(6)
结合计算的河流数字化并行提取复杂度值对其进行综合聚类密度的修正计算:
(7)
式中,K—修正系数。
采用计算试验方法分别对不同计算阈值、聚类系数下河流并行提取时效性进行对比分析,设置的河流并行提取的样本总数为400,空间维度设置为20,2种算法下河流并行提取的时效性对比结果见表1。
表1 不同算法下小型河流并行提取计算时效对比
从不同算法下400条小型河流的计算时效对比结果可看出,在相同计算阈值和空间维度下,密度聚类算法下在聚类系数为19.8时其提取时长为16.2min,而传统串行算法下在相同计算阈值和空间维度情况下,其聚类系数相比于密度聚类算法有所减小,400条小型河流提取的计算时长为41.3min,相比于密度聚类算法,传统串行算法下提取时长增加25.1min,密度聚类算法下其计算时效平均可提高47.5%,这主要是因为传统串行算法对各小型河流进行逐维度计算,其聚类系数要高于密度聚类算法,增加了其河流并行提取搜索半径的范围,从而使得其计算时效相比于密度聚类算法有明显增加。
结合地理信息技术对鞍山地区10~50km2小型河流进行数字化提取,为实现小型河流数字化并行提取,结合密度聚类算法对其数字化提取方式进行并行计算,其首先基于流域数字高程数据采用D8算法进行流向的计算,流向计算如图1(b)所示,在对不同计算网格单元流向分析后采用密度聚类算法对其进行汇流累积并行计算,如图1(c)所示,在进行汇流并行累计计算后对其满足一定阈值范围内的河流进行数值化并行提取,提取过程如图1(d)所示。
图1 基于密度聚类算法的河流数字化并行提取过程图
结合鞍山地区流域面积在10~50km2的10条小型河流实地调查数据,对比分析密度聚类算法下小型河流提取的精度,精度分析结果见表2。
表2 小型河流数字化并行提取精度分析
并对其数字化提取河长和比降与实际调查值的吻合度进行分析,分析结果如图2所示。
图2 数字化提取的河长和比降与实际调查值吻合度分析
从小型河流数字化并行提取精度分析结果可看出,对于鞍山地区流域面积在10~50km2的10条小型河流数字化提取的河长、比降和实际调查值之间的相对误差均在20%以内,其中林家河相对误差最高,这主要是因为该河道弯曲度较大,对其河流数字化提取精度产生一定程度影响,可见对于小型河流而言,其河流弯曲度对其数字化提取精度影响较高。从绝对误差分析可看出,对于小型河流河长数字化提取值和实际调查值之间的绝对误差在3km以内,河段比降绝对误差在3%以内,对于小型河流而言,其河流数字化并行提取精度基本满足要求。从数字化提取的河长和比降与实际调查值吻合度分析结果可看出,其相关系数总体在0.5以上,河长相关度要高于比降相关度,对于河长而言,其数字化提取的精度受河流弯曲度影响相对较小,而河段比降其受河流弯曲度影响较大,因此其吻合度要低于河长数字化提取值和实际调查值之间的吻合度。
(1)采用密度聚类算法对小型河流进行数字化并行提取时,为提高其提取效率,其应建立聚类密度指数和空间维度的关联方程,来对其聚类密度指数进行优化,从而降低其搜索半径范围,一般聚类密度指数要控制在10~15之间为宜。
(2)小型河流弯曲度对于密度聚类算法下河流数字化提取精度影响较大,对于小型河流而言,其弯曲度在2.0以上,需要结合河流调查值,对其比降提取值进行适当修正。
(3)密度聚类算法适合于山丘型小型河流数字化并行提取,其对于平原地区河流提取的适用性还需进一步探讨。