叶润青,李士垚,牛瑞卿
(1.中国地质调查局武汉地质调查中心(中南地质科技创新中心),湖北 武汉 430205;2.中国地质大学(武汉)地球物理与空间信息学院,湖北 武汉 430074)
第四系空间分布及其厚度信息是可持续农业、土地利用管理决策的主要依据,也是山区重大工程建设、地质灾害监测防治工作中的重点关注对象[1]。第四系空间分布及其堆积厚度是影响斜坡稳定性的关键因素,多种地质灾害(如滑坡、土壤侵蚀、地震砂土液化等)的破坏强度及发生概率也与之相关[2-4]。第四系厚度还影响地下水动力过程,随着第四系厚度的增加土体孔隙水压力增大,不利于斜坡稳定[5];在强降雨或地震作用下,浅层土质滑坡易发于第四系分布区[6]。然而,地质图并未提供第四系厚度信息。传统的确定第四系厚度的调查手段如钻孔、探槽等山地工程以及地球物理手段只限于局部(如滑坡)勘查,不适用于区域调查工作的需求。
第四系厚度可概化为是加深、堆积和搬运的函数[7]。其中,加深(deepening processes)是指底部基岩风化导致土壤厚度从底部向下增厚的过程;堆积(upbuilding)是指由于沉积和有机物堆积等作用使得土壤厚度由表层往上增厚的过程;搬运(removals)是指土层受侵蚀、剥蚀等作用使得土体缺失以及溶滤等质量亏损的过程。如McKenzie等[8]采用回归树建立线性模型,并以数字地形和γ射线调查数据为解释变量,开展了土壤性质的预测研究;Tsai等[9]建立了土壤-地形回归模型,并进行了土层深度预测。第四系受时-空多变要素控制和影响,如过去和现在的土地利用状态、地层岩性和风化剥蚀等,其厚度难以用单一地形因子与回归模型估计[10]。
通过收集以往地质调查工作中获取的第四系厚度资料,运用空间插值算法可以估算区域第四系空间分布情况。但是,利用传统的空间插值算法的制图效率和制图精度均不理想。信息技术的发展为地学研究提供了新技术、新方法,如地理信息系统、遥感、数据挖掘等技术为信息的获取与分析提供了强有力的支撑。如郭培虹等[11]提出了从遥感影像中提取水体泥沙指数识别水库第一岸坡土质和岩质分布的方法,可以确定高植被覆盖区近岸斜坡的岩土性质,但无法获取土层厚度信息;刘磊等[12]分析了三峡库区万州主城区的沉积标志、地貌标志与区域第四系分布之间的关系,并利用标志因子构建了基于随机森林算法的第四系厚度估算模型,编绘了区域第四系厚度空间分布图。
基于以上研究,本文以三峡库首区秭归段为研究区,在遥感影像、地质图、地形图、地面调查和勘查资料等多源数据的支持下,利用C5.0决策树构建了第四系空间分布及其相对厚度信息提取模型,编绘了研究区第四系相对厚度空间分布图。
图1 第四系相对厚度及其空间分布信息提取的技术流程图Fig.1 Technical flow chart for extracting the relative thickness and spatial distribution information of Quaternary
本研究基于多源数据的第四系空间分布及其堆积厚度信息提取的技术路线如下:在收集遥感影像、地形图、地质图以及现场调查资料的基础上,获取第四系厚度评价因子专题图,建立第四系相对厚度C5.0决策树模型,估算区域第四系相对厚度,并编绘区域第四系相对厚度空间分布图。具体的技术流程如下(见图1):①研究区数据收集,包括Landsat-7 ETM+多光谱影像数据、高空间分辨率DMC(Digital Mapping Camera)数字航空影像数据、1∶1万地形图和1∶5万地质图以及工程勘查、野外调查数据等;②第四系厚度评价因子提取,并利用多源数据生成第四系厚度评价因子专题图,包括地层岩性、坡度、水系多级缓冲区、归一化植被指数(NDVI)、影像光谱特征中的亮度(Brightness)和影像纹理特征中的灰度共生矩阵对比度(GLCM contrast)共6个评价因子专题图件,并通过收集、整理勘查资料且辅以遥感解译和现场调查来获取已知区域第四系厚度数据(即分类样本);③第四系相对厚度C5.0决策树模型的建立,并估算区域第四系相对厚度,生成第四系相对厚度空间分布图。
决策树算法是数据挖掘中的经典分类算法,可以揭示数据集中的结构化信息,适用于探测式知识发现。决策树可以处理高维数据,学习和分类步骤简单快速,也往往具有较好的准确率。获取的知识用树的形式直观表示、易于理解。Quinlan等[13]开发了ID3算法用来构造决策树,并在剪枝技术和派生规则等方面对ID3算法做出了较大改进,提出了C4.5算法,既适用于分类问题,又适用于回归问题[13-14]。C5.0算法通过在分类过程中增加Boosting方法等改进策略提高了分类精度和算法性能[13-14]。SPSS Clementine等数据挖掘软件中提供了C5.0算法实现。
C5.0算法使用信息增益率作为属性选择度量,依据信息增益率最大的属性对样本数据进行划分。通常可以用如下的方法计算C5.0决策树算法中的信息增益率[15]:
设数据集S为训练样本集,假定类标号属性具有m个不同的值,定义了m个不同的类Ci(i= 1,2,…,m)。设Ci,S是S中Ci类的样本集合,|Ci,S|和|S|分别为Ci,S和S中样本的个数。则集合S分类所需的期望信息量可定义为:
(1)
式中:pi是任意样本属于Ci的概率,并用 |Ci,S|/|S|来估计。
设依照属性X划分S,X具有v个不同的观测值{x1,x2,…,xv},则S可被分成v个子集{S1,S2,…,Sv}。其中,Sj为S中属性X的取值为xj的子集,j=1,2,…,v。在分类的过程中,如果X被选为决策属性,则根据属性X可以将样本集划分到不同的分枝中。设|Sij|表示子集Sj中属于Ci类的样本数量,则基于按X划分对S的样本分类所需的期望信息量为:
(2)
其中,(|S1j|+|S2j|+…+|Smj|)/|S|是第j个分类的权重。
由此可得属性X作为决策分类属性的信息增益:
Gain(X)=Info(S)-InfoX(S)
(3)
信息增益倾向于选择具有大量值的属性,使用增益率来减少这种偏倚。增益率使用分裂信息值将信息增益规范化,即:
(4)
则信息增益率为:
(5)
三峡库首区秭归段(宽约4 km、长约42 km)人类工程活动强烈,滑坡地质灾害密集发育。该区域地处中国地形第二阶梯向第三阶梯的过渡地带,是川东褶皱与鄂西山地会合部位,为中、低山侵蚀峡谷地貌(含西陵峡西段和秭归盆地)[16]。研究区地层发育较完整,除缺失泥盆系下统、石炭系上统及下统、白垩系大部分以及第三系地层外,自前震旦系至第四系地层皆有出露(见图2),总体上地层具有自东向西渐新展布的规律[17]。香溪河以东地区为峡谷区,三叠系以老的地层连续出露,主要为碳酸盐岩;香溪河以西地区主要出露三叠系中统至侏罗系(T2—J)地层,以碎屑岩为主,岩性为砂岩、粉砂岩和页岩。褶皱是区内的主要构造形式,主要发育黄陵背斜和秭归向斜。区内地层岩性多样、构造复杂,不仅提供了地质灾害的发育条件,还控制了空间孕灾环境的差异,部分地层(如巴东组)被称为易滑地层[18-19]。研究区是三峡库区地质灾害严重区,也是灾害重点防治区域之一,曾在1985年发生了新滩滑坡、2003年发生了千将坪特大型滑坡[20-21],近年来不断有滑坡险情出现,如白水河滑坡、卧沙溪滑坡等。由于区内大部分滑坡、不稳定斜坡、塌岸发生在土质岸坡,即为第四系堆积层滑坡,因此第四系识别和厚度信息提取成为关注的焦点之一。
图2 研究区域构造纲要图[17]Fig.2 Regional geological and tectonic framework map of the study area[17]1.断层;2.背斜;3.向斜;4.中生代地层;5.晚古生代地层;6.早古生代地层;7.震旦系地层;8.晚元古代地层;9.中元古代地层;10.研究区边界
研究区内第四系覆盖较广,是滑坡地质灾害的主要物质组成,包括人工堆积层(Qml)、滑坡堆积层(Qdel)、冲积层(Qal)、坡积层(Qdl)。据多个滑坡钻孔揭示,沿长江两岸的河流阶地或山麓平台均分布有第四系冲洪积物、崩坡积物、风化残积层、古滑坡堆积层、古崩塌堆积层,最大厚度超过50 m。
3.1.1 遥感解译及现场调查数据
在三峡库区大坝建设、移民迁建和地质灾害防治工作中,已经获取了部分区域第四系覆盖层信息,包括土层位置、厚度、边界,在此基础上,本文收集了研究区内52处滑坡勘查资料,包括堆积层土体的厚度及其分布位置,但勘查资料缺少薄层土质区和岩质区样本,为此采用遥感解译辅以野外调查方式补充薄层土质区和岩质区样本。遥感解译是利用高分辨率DMC航空影像数据(此数据由中国地质调查局武汉地质调查中心三峡库区地质灾害监测预警指导中心提供),其地面空间分辨率为0.2 m,目视解译可以准确地识别土地覆盖类型(如基岩出露),并结合地面调查可确定薄层土质区和岩质区。经资料收集和遥感解译获得了研究区第四系厚度训练样本总面积为15.59 km2,为研究区总面积的2.99%,并将区内第四系岩土体厚度划分为4个相对等级,分别为岩质区(基岩出露或土层堆积厚度小于1 m)、薄层土质区(1~5 m)、中层土质区(5~10 m)和厚层土质区(大于10 m)。
3.1.2 地质图
作为第四系松散堆积物的物源,岩性无疑是第四系特征的控制因素,因此将地层岩性作为第四系厚度的评价因子之一。研究区地层岩性可分为两类:碳酸盐岩和碎屑岩。其中,碳酸盐岩主要是由灰岩和白云岩组成,岩石强度高、硬度大,岩石抗风化能力强,表面第四系覆盖层薄,集中分布在研究区香溪河和童庄河以东;而碎屑岩是由砂岩、粉砂岩、泥岩组成,岩石强度相对低、硬度小,岩石抗风化能力弱,形成相对厚的第四系覆盖层,主要分布在香溪河和童庄河以西和新滩附近。
3.1.3 地形图
山区地形坡度控制了第四系的搬运和堆积,缓坡有利于岩石风化碎屑物的堆积,易形成较厚的第四系覆盖层,而陡坡则以剥蚀为主,表面第四系覆盖层薄。坡度主要是用来衡量地形陡缓或地表高程的变化率,故将其选择为第四系厚度评价因子之一。坡度可从数字高程模型(DEM)中提取,而DEM由地形等高线生成。因此,本文由收集的19幅1∶1万地形图(等高距为10 m)制作了研究区DEM。研究区坡度分布范围集中在35°以下,主要为中、缓坡,第四系厚度与斜坡坡度的关系总体上呈反比,即随着坡度的增加第四系厚度变薄,当坡度大于60°时一般为基岩裸露。
河流岸坡的第四系剥蚀是由高处往低处的搬运过程,最终汇入长江或其支流。一般情况下,斜坡上第四系堆积物也是自上而下变厚,因此本文将水系多级缓冲区作为第四系厚度的评价因子之一。
3.1.4 Landsat-7 ETM+多光谱影像数据
Landsat-7 ETM+多光谱影像数据获取时间为2000年5月14日,其空间分辨率为30 m,经辐射定标、大气校正、几何校正等预处理后,获取归一化植被指数以及影像光谱特征中的亮度和影像纹理特征中的灰度共生矩阵对比度作为第四系厚度的评价因子。
图3 研究区Landsat-7 ETM+多光谱影像示例图Fig.3 Landsat-7 ETM+ image of the study area
三峡库区人类活动强烈,主要是农业活动和移民城镇建设,土地资源相对紧张,因此大部分第四系较厚堆积层区已成为农业和城镇居民用地。现场调查显示,研究区第四系厚度与土地覆盖具有较大的相关性,例如高植被覆盖区下面第四系堆积层薄,甚至是岩质区;而植被稀少或无植被区,如耕地、裸地、居民区则往往是厚层第四系覆盖。归一化植被指数(NDVI)在一定程度反映了植被覆盖和土地利用情况,因此选取NDVI作为第四系厚度的评价因子。本文选取ETM+多光谱影像近红外波段(Band 4)和红光波段(Band 3)数据通过波段运算提取了研究区的NDVI。
第四系厚度与土地覆盖类型组合也具有较强的相关性,土质区(尤其是厚层土覆盖区)的地表覆盖类型主要是耕地、裸地、居民区(农村居民点,房屋比较分散)、稀疏植被等多种地物类型组合,在遥感影像上呈现特定的纹理特征,因此可采用图像分割及面向对象信息提取技术研究第四系厚度与地物组合之间的关系,即利用多尺度分割算法将邻域中具有相似的光谱和纹理特征像素聚类为一个对象,然后获取对象的光谱和纹理特征。多尺度分割算法既能很好地反映图像邻域间的空间关系,又提供了更灵活的表示形式,因此对于图像信息的进一步提炼十分有益[22],其原理是通过多尺度策略对每个像素邻域关系(上下文内容)自适应模拟和聚类[23]。在eCognition软件平台中,对Landsat-7 ETM+多光谱影像数据进行多尺度分割,使用控制单一变量选优的策略,利用ESP2工具可得到较为理想的多尺度分割参数:尺度参数Scale=44,形状指数Shape=0.2,紧置度Compactness=0.5[24-25]。经与第四系厚度样本对比分析,选择影像光谱特征中的亮度(Brightness)和影像纹理特征中的灰度共生矩阵对比度(GLCM contrast)作为第四系厚度的评价因子。
如上所选取的评价因子变量多源数据可用间隔尺度、有序尺度和名义尺度3种类型表示。其中,间隔尺度的变量用实数表示,如坡度为0°~90°;名义尺度的变量用特征状态表示,如地层岩性用碳酸盐岩类和碎屑岩类描述;有序尺度的变量用有序等级表示,如第四系厚度用薄层、中层、厚层描述。另外,坡度、NDVI、Brightness、GLCM contrast评价因子使用自然间断点分级法进行重分类,将连续性评价因子变量离散化,各评价因子重分类情况见表1和图4。
表1 第四系厚度评价因子的分类
图4 第四系厚度评价因子的分类图Fig.4 Map of Quaternary thickness estimating factors
在数据挖掘SPSS Clementine软件中,基于前述分析得到的6个第四系厚度评价因子,利用C5.0决策树算法对训练样本学习,构建第四系相对厚度分类模型,生成研究区第四系相对厚度估算结果(见表2),并在ArcGIS软件中制作研究区第四系相对厚度空间分布图(见图5)。
由表2可知,研究区第四系覆盖区域面积占研究区总面积的73.48%,岩质区为26.52%。第四系覆盖区中,厚层、中层、薄层土质区域面积占研究区总面积的百分比分别为32.13%、4.28%和37.07%。
表2 第四系相对厚度信息提取结果统计
图5 第四系相对厚度分区及基岩分布图Fig.5 Map of spatial distribution for Quaternary relative thickness and the bedrock
利用现场调查和遥感解译数据的一部分(50%)作为检验样本,在ENVI软件中通过混淆矩阵计算得到分类的总体精度为75.79%,Kappa系数为0.68,表明第四系相对厚度的分类精度中等。
通过对比分析图4和图5可以得出区域上第四系相对厚度及其空间分布具有如下规律:
(1) 第四系空间分布及其堆积厚度由岩性控制,厚层土质覆盖区主要分布在碎屑岩中,碳酸盐岩则是以薄层土质覆盖区和岩质区占主导。
(2) 第四系厚度与水系具有相关性,随着离岸距离的增大,第四系厚度具有由厚变薄的趋势。但从局部范围来看,第四系相对厚度及其空间分布由坡度控制,坡度越大,第四系厚度越薄;且第四系相对厚度及其空间分布与NDVI以及影像的光谱、纹理等因素存在较强的关联性,厚层土质区主要分布于居民建筑区、耕地、裸地和稀疏植被覆盖区。
研究区172 m高水位蓄水期间(2008年11月)塌岸现场调查显示:区内共发现19个塌岸,均为土质塌岸;从塌岸数量上看,发育在厚层土质区的塌岸有11处、薄层土质区的塌岸有8处;从塌岸规模上看,厚层土质区的塌岸规模总体上大于薄层土质区,9处较大规模的塌岸中有7处发育在厚层土质区中。上述塌岸现场调查结果反映了此研究结果可为库岸再造和塌岸防治提供科学依据。
根据第四系空间分布及其堆积厚度信息提取结果,将研究区长江干流及其主要支流岸坡第四系相对厚度划分为若干段,其中长江干流岸坡第四系相对厚度划分为11段,具体描述见表3。
表3 研究区长江干流及其主要支流岸坡第四系相对厚度分段
由表3统计结果显示:以厚层、中层第四系覆盖为主的岸坡长度为79.3 km(其中长江干流为45.2 km),以岩质和薄层第四系覆盖为主的岸坡长度为47.9 km(其中长江干流为38.9 km)。
本文针对目前工程地质中,尤其是三峡库区地质灾害防治中普遍关注的库岸斜坡中第四系空间分布及其堆积厚度问题,在多源数据的支持下,提出了第四系空间分布及其堆积厚度信息提取方法。以三峡库首区秭归段为研究区,在收集遥感影像、地质图、地形图以及勘查资料等数据的基础上,通过分析第四系空间分布及其厚度的成因和控制因素,确定地层岩性、坡度、水系多级缓冲区、归一化植被指数(NDVI)、影像光谱特征中的亮度、影像纹理特征中的灰度共生矩阵对比度共6个评价因子,通过收集现场勘查、野外调查资料以及将高分辨遥感影像解译的方式获取的已知区域第四系空间分布及其厚度作为样本,经C5.0决策树模型学习建立了第四系相对厚度估算模型,估算区域第四系相对厚度,并编绘研究区第四系相对厚度空间分布图。结果表明:①区域内第四系的空间分布及其堆积厚度由岩性控制,其与水系的相关性较强,而局部则受坡度控制;②遥感技术是第四系空间分布信息获取和分析的有效手段,不仅利用Landsat ETM+影像获取了第四系厚度评价因子(如归一化植被指数、影像光谱和纹理因子),还通过高分辨率DMC航空影像解译,并结合地面调查获取了岩质和薄层土质区,而采用多尺度分割算法提取对象的光谱和纹理信息,有利于分析第四系厚度与土地覆盖类型组合的关系,表明遥感影像的光谱、纹理特征可较为真实地反映第四系的空间分布信息;③172 m高水位蓄水期间的塌岸调查结果佐证了第四系厚层区划结果的可信度,该研究结果在库岸再造和塌岸防治方面具有一定的参考价值。
致谢:感谢中国地质调查局武汉地质调查中心三峡库区地质灾害监测预警指导中心的支持与帮助,感谢彭令、赵艳南、江齐英、吴婷和许霄霄的帮助。