王风帆,孔敏,余佳,韩璐遥
(国家海洋信息中心,天津 300171)
海洋底质类型图是开展海洋环境研究的基础图件之一,常用于海洋工程、沉积环境研究等领域[1-2]。传统底质制图方法依赖于制图人员的专业知识,主观性强且效率不高[3]。随着计算机技术的发展,空间插值技术的引入大大提高了底质类型图制作的效率。张立华等[4]和王涛等[5]引入了Voronoi图生成技术;杨康等[3]利用反距离加权和克里金法进行网格点粒级组分插值,然后采用栅格叠合法计算底质类型。Jerosch[6]改进了栅格叠合法,利用协同克里金法引入地形信息,并证明该方法适用于不含砾石的谢帕德分类。Lark等[7]直接利用协同克里金法进行底质类型预测,但只针对简化的福克分类(含砾),且实现过程复杂,对统计学知识要求较高。由于克里金法对数据在空间平稳性和统计分布上的要求较高,限制了其在底质类型图制作中的应用。刘付程等[8-9]和袁玮等[10]提出了一种基于概率测度的底质类型制图法,降低了对数据的要求,且能够对插值结果的不确定性进行评价,但对空间统计相关知识要求较高。上述海洋底质类型图制作方法均需要准确的沉积物组分信息,无法应用于组分信息缺失的场景,且其目标产品均为网格或位图数据,不利于后续图件修改工作的开展。
本文针对传统底质类型图制作中存在的问题,基于随机森林算法分类功能,研究海洋底质类型网格数据智能制作方法,设计了底质类型分布矢量图的制作与平滑流程,能够获取准确的底质类型分布矢量数据,使底质类型边界光滑美观,最终利用渤海区域底质数据进行应用试验,结果与栅格叠合法进行对比分析,证明了该方法的有效性。
本文选用渤海区域历史调查获取的表层沉积物样品粒度数据,共790 站,包含经度、纬度、各组分比例(砾石、砂、粉砂、黏土)信息,数据完整且较为规范(组分比例之和为100%±1%)[11],可精准确定底质类型并用于后期方法验证。站位数空间分布如图1所示。
图1 底质数据站位数空间分布图
依据福克分类法[7],将数据划分为11 种底质类型。从数量上看(图2),以砂质粉砂、粉砂质砂、泥质砂和粉砂为主,黏土、砾质泥质砂、含砾泥、砾质砂十分稀少。
图2 底质类型站位数量分布图
考虑到海洋底质历史数据中,沉积物组分信息经常存在缺失的情况,因此对于一些缺少详细数据的区域只能利用已知的底质类型直接成图。而底质类型属于离散数据,大部分插值方法不适用该场景,因此本文利用机器学习随机森林算法的分类功能,通过学习底质数据的空间自相关性来预测未采样位置的底质类型。
2.1.1 算法原理
随机森林算法是指为增强决策树的多样性而在决策树构建过程中对样本和特征进行随机化选择的集成化学习方法(图3),即具有随机化决策树的Bagging 集成,属于非参数统计方法与决策树算法的结合[12]。随机森林算法不需要先验假设,可以充分利用输入信息,能够处理样本不平衡问题且不容易出现过拟合,具有较高的运算速度和稳健性,易于操作和使用,因而在数据分类中广泛应用。
图3 随机森林算法原理图
随机森林算法首先对具有K个特征的训练数据集进行有放回随机采样,形成m个子训练集,针对每个子训练集随机抽取k个特征(k≤K)来建立m个决策树,然后在测试或实际分类时,采用投票作为结合策略,以决策树预测最多(票数最高)的类别作为最终结果。这种通过随机抽取部分样本来生成决策树的方法称为Bagging 集成。决策树建立需要确定分裂方法,常用的是不纯度度量法,包括Gini 系数法、信息增益法、增益比率法等。这里采用应用最广泛的Gini 系数,其公式为:
式中:pl为输入样本属于第l个类别(共L个类别)的概率。Gini系数越小代表样本纯度越高。
2.1.2 模型评估指标
评估分类模型性能的指标有准确率、精准率、召回率和F1 值等[13]。其中,准确率是常用的模型评价指标:
式中:TP为真正类,指一个正类实例被预测为正类;TN为真负类,指一个负类被预测为负类;FP为假正类,指一个负类被预测为正类;FN为假负类,指一个正类被预测为负类。
在数据不均衡的情况下,准确率对模型性能的反映存在很大缺陷,因此需要从不同角度去评价分类效果。
精准率Pre为真正类与预测为正类的数量之比。
召回率Rec为真正类与实际为正类的数量之比。
F1 值是精准率与召回率的结合,能够对模型进行整体评价。
考虑到本文数据中各底质类型数量并不均衡,虽然算法构建过程中采取了一定措施,但为了进一步减小数据不均衡带来的影响,最终采用F1 值作为建模过程中的评价指标。
2.1.3 类型编码
将输入数据中的经度和纬度作为特征变量,底质类型为标签变量。底质类型为字符型数据,算法无法识别,需要将其转换为离散化数值[12](表1)。
表1 底质类型编码
将数据输入模型进行训练,决策树数量设置为100,完成后将成图网格点处坐标输入模型,以预测坐标点处的坐标类型编码,然后利用表1进行反编码,即可获取底质类型的网格数据。根据数据空间分布范围,设置网格步长为0.6'。
获取网格数据后,便可进行底质类型图的制作。底质类型图不同于等值线及等值线填充图,其以多边形面为主体,内部的底质类型一致。常规作图法采用网格填充或者最近邻插值方式,但在网格步长较大时会产生明显的锯齿状边界。而等值线生成法虽然能够产生光滑的边界,但由于其将输入编码作为连续数值,最终会产生连续叠加的“厚”边界甚至不正确的面要素,需要后期进行手工编辑修正,增加了工作量[14]。
为了改善这一问题,本文利用ArcGIS 的矢量数据操作功能[15-16],提出了一种底质类型边界平滑方法。具体如下:
采用最近邻插值获取底质类型面要素,利用Data Management Tools -> Feature -> Feature to Point 功能提取面要素的代表点,并利用Spatial Analyst Tools -> Extraction -> Extract Values to Points功能将底质类型信息添加到代表点中。
将面要素转换为线要素(边界线),利用Cartography Tools -> Generalization -> Smooth Line功能对边界线进行光滑。这里平滑算法选用Peak,容差为1°。
利用Data Management Tools -> Feature ->Feature to Polygon 将边界线与研究区多边形结合生成具有光滑边界的面要素。
利用Analysis Tools -> Overlay -> Spatial Join功能,将代表点的底质类型信息赋给面要素。
最终,对面要素进行颜色填充等操作,完成底质类型图的编制。总体技术路线如图4所示。
图4 技术路线图
为了测试模型的有效性,需要将数据集划分成两个部分,分别用于模型构建与测试。考虑到含砾泥质砂等5 种沉积物数量过少(<10),无法开展测试,因此将其剔除,然后按6∶4 的比例将数据集划分为训练集与测试集,利用训练集建立底质类型空间预测模型,并利用测试集对模型进行评估。分析评估结果(表2)发现,模型总体加权平均F1 值为60%,其中对泥质砂的预测性能较好,F1 值达到了71%,但对砂和砂质泥的预测性能很差,F1 值为0%。这里影响模型性能的因素主要有两个,一个是样本数量,另一个则是样本的分布情况。样本数量越少,算法挖掘其规律的效果就越差;而分布零散,会导致某一种沉积物的分布区内没有样本用于模型建立,也会影响测试结果。因此除了量化分析结果外,还需要通过绘制底质类型图并与已有方法制作的图件相比较进行验证分析。
表2 随机森林模型测试结果
将渤海沉积物粒度数据按照本文建立的智能制图方法进行网格化与图件制作,即假设研究区内底质数据仅有底质类型信息,沉积物组分信息缺失,在该情形下制作获取底质类型图(图5(a))。为了分析图件的有效性,需对比底质数据中沉积物组分信息完整的场景,即采用栅格叠合法制作底质类型图进行比较(图5(b))。面要素颜色填充均依据国家标准《海洋要素图示图例及符号》(GB/T 32067-2015)[16]。
图5 不同方法制作的底质分类图
首先,随机森林与栅格叠合的制图结果十分接近,整体趋势基本一致。栅格叠合的结果可靠性较高,但也是基于详细的组分信息,在许多收集的海洋底质类型图等资料中并不包含这些信息,因此随机森林方法在一定情形下作为常规制图法的补充是比较可靠的。
其次,栅格叠合比随机森林结果多出3 个底质类型,砂质黏土(sC)、砾质泥(gM)和含砾砂((g)S),这是由于栅格叠合是基于组分进行插值,叠合后需要重新进行类型划分。沉积物的空间分布具有一定的渐变性特征,不同底质类型之间的边界具有模糊性(不确定性)[10],因此出现这种现象是合理的。但这些类型占比非常小,对结果影响不是很大,因此随机森林结果可用性还是很高的。
最后,栅格叠合法产生的底质类型边界由于最近邻插值呈锯齿状,一般为了消除这种现象需要设计更小的网格间距,会加大计算量。而本文提出的边界平滑方法可以解决这个问题,并能够获取易于编辑的矢量数据,有利于后期的图件修改。此外,该平滑方法也可应用于栅格叠合法边界平滑,效果明显(图5(c))。
本文针对底质类型数据,提出基于随机森林算法的底质类型图网格制作方法,并利用ArcGIS的矢量数据操作功能构建底质类型边界平滑方法,开发了底质类型矢量图智能制作技术,最终利用渤海沉积物粒度数据进行应用试验,并与栅格叠合技术进行了对比,得出结论如下:
(1)本文提出的底质类型智能预测方法能够对未采样位置的底质类型进行有效预测。
(2)利用本文提出的底质类型边界平滑方法可以获得平滑的底质类型边界,制作出的图件较为美观。
(3)本文提出的底质类型矢量图智能制作方法,是对传统底质类型图制作方法的补充与改进,能够有效提高图件制作效率,有利于后续研究工作的开展。