基于极限梯度提升的公路深层病害雷达识别

2021-01-08 08:53杜豫川都州扬刘成龙
同济大学学报(自然科学版) 2020年12期
关键词:探地特征提取雷达

杜豫川,都州扬,刘成龙

(同济大学道路与交通工程教育部重点实验室,上海201804)

随着公路密度的持续增加,公路质量监测和养护的任务愈加艰巨,道路老化、汽车荷载加大以及地下管线泄漏等现象极易诱发空洞、脱空或者断层等现象,具有潜在的事故安全隐患,发展公路快速无损的智能检测技术具有重大的意义[1-2]。探地雷达是近些年快速发展的高分辨率深层无损探测技术,该技术对道路结构中的各种隐性病害的探测取得了一定进展,但仍存在雷达数据集较少、分类精度不高等不足尚待完善。

目前应用探地雷达技术识别公路病害的方法主要分为三类,基于探地雷达图像的专家解释法、基于图像信号处理的分析法和基于人工智能技术的自动检测分类法。由于在公路施工过程中或使用过程中空气或水进入公路路基内部,导致道路内部的介电参数发生变化,不同种类和发育程度的病害在探地雷达的回波图像中形态不同。为实现公路深层隐伏病害的自动识别,常采用A-scan和B-scan两类数据进行研究,即一维、二维数据集。A-scan是当探地雷达天线在地面沿同一个水平方向移动时,在不同的位置采集到一系列的一维深度数据,该水平方向连续的A-scan即组成二维数据,即为B-scan。当公路深层介质出现不连续或是突变,探地雷达天线入射的电磁波会发生反射,导致其A-scan反射波的相位、振幅发生显著改变,伴随着延时现象[3]。A-scan作为探地雷达天线收到的连续反射波的最小组成单位,能够直接并真实反映出路面该点有限深度下的介质分布和变异情况,通过A-scan判断病害有无和病害类别,直接实现病害定位与分类具有可行性。

基于探地雷达图像的专家解释法是采用人工统计分析的方法对少量公路病害样本进行规律和表征分析。王春和采用实测结合统计的方式定性地探究空洞病害的分布、定位及定型,总结出空洞尺寸及塌陷临界时顶板厚度和脱空范围[4]。由于采样随机性大且总样本较少,统计和分析的结果不具有普遍意义。然而,实测图像的大量获取存在难度,王一帆借助仿真模拟的方式模拟病害在探地雷达图中的响应图像,再将生成的病害图像与实测图像进行比对验证[5]。近些年,图像检测的技术手段较为成熟,将少量的探地雷达的B-scan二维数据输出为灰度图像,再采用图像检测的技术实现公路病害定位和分类的相关研究不断涌现。张春城提出一种基于图像熵变化及窗口能量检测的探地雷达自动目标检测与定位方法,通过求解能量的极大值处自动对比识别异常区域[6]。另外,图像处理领域的纹理特征、几何特征和代数特征提取等作为探地雷达图像特征提取方法,被证明能够有效改善探地雷达图像的质量[5,7-8]。但探地雷达回波的本质是具有波形变化的A-scan信号,基于图像处理的探地雷达识别算法是对信号的再加工,往往损失并忽略信号自身所蕴含的介质信息,不利于从本质上描述和表征病害特征,基于此进一步提升分类和定位精度存在一定难度。

基于人工智能的病害识别算法在处理大数据、多特征和多分类上的速度、精度提升效果明显。周辉林等人基于A-scan图像采用支持向量机算法对病害路面和非病害路面进行二分类识别,检测结果准确率达92.7%[9]。除了对单种病害的检测与验证和病害与非病害的二分类研究,近些年学者将目光放到了多类别的地下病害的检测上。许献磊等将异常属性划分为轻微疏松、中等疏松、严重疏松、空洞、轻微疏松、一般富水、严重富水等6个类别进行分类,首次提出对病害严重程度的分类和评估[10]。常见的BP神经网络、稀疏表示、深度神经网络等人工智能的算法也被广泛的应用于病害的多分类检测中[11-12]。多类型病害共同存在于一段道路中时,雷达图像往往呈现出复杂、多样的特点,增大人工识别的难度。多类型病害识别的难点主要集中于两方面,一是探地雷达检测过程本身受到多种物理干扰源的干扰,容易造成真实病害的漏盘和误判[13],如天线、地面金属物、地下通道等,需进一步通过专家研判或开挖取样,对病害标签进行确认;二是目前现有的多病害识别研究,对各类病害识别准确率差别较大,整体的识别效果需进一步提升。例如杜攀峰等采用学习向量量化神经网络模型对铁路路基的病害进行多分类,对基床翻浆、道床翻浆的预测准确率达90%以上,但对下沉、道砟陷槽的识别准确率不到60%[14]。沙爱民等提出使用级联卷积神经网络(CNN)来来识别不同分辨率探地雷达图像中的裂缝、坑槽等病害[15]。此外,Tong等人也应用Fast RCNN等深度学习的目标检测算法对探地雷达B-scan图像中的病害进行自动定位和分类[16-17]。但是这些方法仍存在以下问题:

(1)样本量小或样本未经实地验证。在工程中,对公路深层病害进行钻心取样验证和专家解释验证的成本往往较高,从而导致病害真值数据的获取十分困难。数据的质量和数量影响着人工智能算法的表现,因此基于大量已验证数据的研究具有高价值。

(2)多病害识别的分类精度和速度有待提高。在质量较差的公路内部往往多类病害并存,现有识别方法往往对同一雷达图像的某一类病害进行识别,多类病害的精确识别表现不佳。

本文采用预测效果和识别速度均表现优异的XGBoost算法(Extreme Gradient Boosting)对公路深层病害的雷达图像进行识别分类,实现特征挖掘分析和分类精度的提升。首先获取高速公路路基的探地雷达图像,通过实地钻芯取样和图像分析、专家解释等方法建立探地雷达信号的真值数据集。然后再通过对数据集内的病害进行表征分析和特征选择,提取路基病害的时域和频域特征。最后采用分类算法对病害进行分类和定位,对比分析多种分类算法的速度和准确率。

1 数据采集与预处理

1.1 采集方法

本文的研究的主要内容与流程主要分为数据集建立、表征分析与特征提取、试验及分析三步。

(1)数据集的建立主要通过采集设备与参数设置、现场实证与专家解释,再对数据进行整理和清洗得到具有病害类别标签的大量数据集。

(2)表征分析与特征提取主要包括基于时域特征、频域特征的特征提取方法和不同类别和严重程度病害的解释分析。

(3)试验与分析阶段主要通过分类算法对病害类型与位置进行自动识别,对算法的性能进行对比分析,得出结论。

建立探地雷达的数据集,需要保证数据采集的准确度、规模度和多样性。采用型号LTD-2600的车载探地雷达系统,采集来自沈海高速和郑少高速部分路段的探地雷达反射波A-scan信号数据。主要采集参数如表1所示。为充分采集区域内横纵方向的公路深层信息,在采集区域内沿行车方向共布置6条纵向测线,其中应急车道和行车道各布置3条测线;每隔2m布置1条横向测线,每条横向测线长8m,以保证采集全面覆盖公路路面范围。

表1 探地雷达系统参数设置Tab.1 Parameter setting of GPR system

1.2 验证分析和专家解释

为验证所采集探地雷达的数据集内的病害种类,首先对现场采集的数据进行初步判断和记录,对于部分病害在现场直接进行钻芯取样或实地开挖,以验证所判断的病害类型及结果,部分现场探测情况和取样结果如图1所示。

接着对于剩余雷达数据,由两位经验丰富的专家在数据处理中心对采集数据进一步进行全面的处理和研判,判断病害所属类型,并将专家所研判的病害类型作为本文训练模型的真值标签。专家对原始探地雷达数据的处理流程主要包括以下步骤:①预处理工作:包括文件格式转换、方向调整、分割和合并、道标准化;②零点校正:由于采集时天线与地面不能直接耦合,利用地面反射波的起点作为零点,解决了由于天线距的高度引起的时间误差;③数字滤波:根据频率差异消除部分干扰波[18];④反褶积:提高记录纵向分辨率,达到提高检测精度的目的;⑤动校正:消除发射天线与接收天线之间的距离对有效波走时的影响;⑥偏移处理:将接收信号剖面上的同相轴恢复到原来的正确位置,剖面面貌变得清晰,达到提高解释精度的目的;⑦时深转换:利用标定点速度参数将时间剖面转换为深度剖面。最后依据剖面图进行专家解释,结合现场验证结果生成该路段的病害评估标签。

图1 数据采集与验证Fig.1 Data collection and verification

本文将常见的公路深层病害种类分为脱空、疏松、隐含裂缝或断层以及正常这四类。通过车载探地雷达采集初始的A-scan数据共2 108 506道。各高速公路采集的数据见表2。如表2所示,正常路基共2 092 026道,脱空路基9 000道,疏松7 886道,裂缝或断层594道。数据集内的每一条数据包含高速公路的名称、对应病害的类型、病害的严重程度以及对应的信号道数的位置。

表2 A-scan数据集的病害类型与数量Tab.2 Type and the number of diseases in A-scan dataset

2 基于A-scan的公路深层病害表征分析与特征提取

2.1 公路深层病害表征分析

探地雷达的目标检测与分类一般分为两步。首先进行表征分析和特征提取,即以准确、高效的特征提取为前提,再利用所挖掘的特征对目标进行分类的识别。本节分别总结A-scan和B-scan图像中不同病害目标的种类、大小和位置等差异性,选择时域A-scan、频域的能量密度谱两个维度作为特征,输入分类器进行目标识别。

首先对通过对病害在A-scan的表征进行分析,验证得出基于探地雷达A-scan信号进行特征提取具有可行性。一个A-scan对应一处测点的时域波形,判断异常处的波形可以从其幅度、相位和延时等方面进行研究。如图2所示,选取不同结构公路的病害样本,不同样本间因采集方式的差异、公路结构、使用年限以及道路损坏程度的差异有所差异,不同类型的病害样本也分别在探地雷达A-scan和B-scan图像中展示出不同波形和聚集特征。

在A-scan信号图中,不同种类病害表征随病害程度的变化在幅度、范围和波形等方面有所差异。本文所探究的第一类病害是公路路基疏松,图2a中虚线为无疏松病害的正常A-scan,其余所有疏松病害波形均产生时延,振幅在采样点150~250ns区间内急剧增大。严重疏松振幅变化最大,而中度疏松虽然在振幅上与轻度疏松十分相似,但涉及采样点的范围较大,即说明在纵深方向中度疏松的宽度长于轻度疏松。图2脱空病害对应的B-scan图像揭示出,由于疏松土体是土和空气的混合物,土体越疏松,土体之间空隙率越大,混合物的介电常数越小[19],疏松病害在区域内的反射波振幅越强,同相呈现不连续的现象,波组的杂乱程度较高,其上覆地层反射波同相轴可能出现向下凹陷变形。本文所研究的第二类病害公路内部脱空,与疏松病害的形成机理相似,层间脱空的内部含空气和水,相对介电常数与周围土体材料的相对介电常数相差较大,易于采用探地雷达技术对其进行检测识别。如图2c所示,与无病害的A-scan波形相比,整体波形凌乱,所有脱空病害振幅显著增强,其中轻度脱空与无病害的波形最为接近。此外,不同程度的病害均产生不同程度时延。从图2d所显示的B-scan图像分析,脱空类病害在纵深方向上局部差异较明显,同时脱空病害A-scan信号间具有相似的特征。第三类常见公路病害指隐含裂缝或断层,结构层隐含裂缝或内部的断层无法通过普通设备测量检测,需要通过探地雷达等深层病害检测手段进行检测。如图2f所示,断层在B-scan图像中主要表现为连续A-scan反射波形中存在一段不平行波段,具体A-scan波形之间,振幅相似,但在各采样点处出现不同程度的错位。

2.2 基于信号时域-频域的病害特征提取

为了高效准确的识别不同路基病害的类别,需要根据目标的特点,选择合适的特征因子。经过预处理的A-scan信号本身的幅度、波形及时延反映了被测目标的性质。在时域的维度上,一个A-scan信号即为一个测点的时域波形,雷达信号的时域特征可以从均值、方差等侧面进行细致的描述。为了准确的提取不同病害的A-scan特点,结合病害在回波信号上表现出的差异性,取A-scan各道信号的能量、方差、偏度构造特征向量;在频域的维度上,考虑傅里叶谱的谱峰对于形状、尺寸和介电常数不同的目标所表现的特征不同,取A-scan的对数能量功率谱作为一个特征。综合提取雷达信号的时域和频域特征作为特征向量,建立基于分类算法的识别模型,然后对反射信号进行识别和智能分类,达到准确识别公路深层病害的目的。

从图2看出,A-scan波形的显著变化往往在局部出现,为捕捉A-scan信号的局部特征,对各A-scan信号进行分段求解特征值。假设一道A-scan数据含有N个采样点数据,将该道数据划分为P个区段,则每段数据的采样点个数M=N/P。在分段时,为了减少因分段对数据带来的分割效果,设置每两段数据有50%的重叠。根据特征公式,分别求得各段信号的能量、方差、偏度和对数功率谱,作为特征向量输入分类算法中。

各特征值求解方法如下:

(1)平均能量μ:表示A-scan电磁波的整体能量特征。式中,数据区段i=0,1,2…,2(P-1),Aj表示每道A-scan第j个采样点的振幅,μi表示第i段信号的平均能量,即

(2)标准方差σ与偏度d:方差和偏度均表示该范围内A-scan波形的紊乱程度。式中,μ表示各数据区段的平均能量,σ表示各数据区段的标准方差,偏度d表示各数据区段的偏度。

图2 各类病害的A-scan和B-scan图像Fig.2 A-scan and B-scan data of different diseases

(3)对数功率谱P:对数功率谱是频域指标,能够提升对空洞病害的识别能力。式中,各数据区段采样点数为M,x(m)是长度为M的有限长时间序列,X(k)为其离散傅里叶变换。

3 基于XGBoost分类模型的路基病害识别模型

XGBoost作为当下人工智能算法中的新方法,在多类应用中处理速度快、预测效果好[20],首次应用至公路领域病害雷达图像的快速识别和分类具有较大的实用价值和应用潜力。XGBoost模型属于GBDT模型(Gradient Boosting Decision Tree)的一种,通过在XGBoost的目标函数加入正则项,避免学习到的模型过拟合;并且区别于传统GBDT模型,误差函数只使用一阶泰勒展开,XGBoost使用二阶泰勒展开,对算法加以改进以提高精度。另外XGBoost算法在训练之前,预先对数据进行排序和保存,后面的迭代中重复地使用保存的结构,以加快计算速度。对给定含有n个样本m个特征的数据集分C类,数据集合D=2,…,C-1}}建立XGBoost多分类模型。XGBoost模型是由多个基模型组成的加法模型,记样本xi在第k轮预测值为则样本xi的预测值可表示如下:

式中:F={f(x)=wq(x),q:Rm→T,w∈RT},F 表示回归树空间;w表示回归树叶子节点权重;q表示回归树的结构,把每个样本节点映射到对应叶子节点索引;T表示叶子节点数目。给定分类模型的目标函数为

省略常数项,进一步得到简化的模型目标函数的近似表达式如下:

接着对所有叶子节点进行重新归族,将属于第j个叶子节点的所有样本xi划入到该叶子结点的样本集合中,即令Ij={i|q(xi)=j},则XGBoost模型的目标函数可改写为

式中:Gj表示叶子节点j所包含样本的一阶偏导数的和;Hj表示叶子节点所包含样本的二阶偏导数的和;为求目标函数的最优值,通过对wj求导,叶子节点j的最优值和目标函数最优值分别为

建立以上模型后,XGBoost预测算法生成的预测值可用于病害分类。Softmax函数是最常见的分类函数,可将XGBoost预测算法输出的预测值归一为各样本所包含病害类型的概率,即获取各分类的预测概率Pi如下:

4 试验结果与分析

4.1 训练与实验结果

首先,通过在建立的数据集中选取30 826道公路雷达A-scan数据,将这些数据按照7:3的比例划分为训练样本和测试样本。为了消除因为各类别数据的比例差异过大对算法的识别结果造成较大影响,对两类高速的正常类病害数据进行充分混合和扩充,试验数据集比例约为1.3:1.5:1.3:1,使得样本比例较为均衡,如表3所示。

表3 试验数据集的样本构成Tab.3 Samples of test data set

接着,将A-scan数据归一化后,按特征公式(1)~式(5)计算依次各道数据的4类特征值,各类病害的特征值在各区段的分布如图3所示。图3a中平均对数功率谱值的分布显示出,裂缝或断层的A-scan对数功率谱值在各区段最高,随着探测深度的加深,所有病害的对数功率谱值均明显降低;图3b中从能量的特征分布可以看出,脱空病害比疏松病害的信号更加紊乱,在更大深度范围内的振幅变化更显著,而裂缝或断层往往在更小的局部范围内信号变化更明显,因此在能量的特征中表现不显著;图3c标准方差的特征曲线与能量图的差异不大,同样显示出在区段4到区段9之间,所有的曲线与其他区段的分布差异明显。图3d峰度特征的曲线则展示出,裂缝或断层的病害在全区段的范围内的变化最为明显,这也展示出在该病害由于自身狭长的特点,在垂直深度方向影响着信号的波形。不同病害的信号特点均在选取的特征指标中体现,充分挖掘出病害之间的差异性和相似性。

最后,将训练集中各道A-scan数据所提取的特征值、以及该道数据所对应的病害类别标签作为训练样本,共同输入至XGBoost模型中进行训练。如图4所示,随着模型中树深度的不断加深,算法复杂度增加,训练所消耗的时间也随之增加。训练模型在测试集上的平均分类准确率稳定在94.3%左右。

4.2 试验结果分析

为了对比各类算法在同一雷达病害数据集上的表现,本文还将过往研究中广泛使用的支持向量机分类算法和随机森林分类算法应用在探地雷达数据集上,按训练样本和测试样本7:3的比例划分30826道公路雷达A-scan数据,进行对比实验。实验结果如表4所示,XGBoost分类算法对四类路基状态(正常、脱空、疏松和裂缝或断层)的分类精度均达到90%以上。与过往研究相比,本文所提出的基于时域-频域的特征提取方法结合XGBoost分类方法,首次应用于探地雷达数据上,全面提升了各类病害的检测准确率;与支持向量机算法和随机森林算法的分类表现相比,XGBoost算法对正常无病害、疏松类病害的识别准确率高于其他算法,对裂缝或断层以及脱空类的病害的识别准确率分别为90%、93%,与其他算法基本持平。此外,可以明显发现随机森林算法的识别准确率仅次于XGBoost算法,在该数据集上也表现处较好的结果,但所用时间是XGBoost算法的三倍。对于更大型的数据集而言,XGBoost算法在处理速度上的优势更明显,见表4。

图3 训练集数据的特征分布Fig.3 Feature distribution of training data

图4 XGBoost学习模型的测试效果Fig.4 Training results based on XGBoost model

表4 不同分类算法效果对比Tab.4 Results comparison of different classification algorithms

在XGBoost算法中,正常类的雷达数据的识别准确率最低,为90%。将正常类路基错误识别为疏松类病害的可能最大,机率为6.8%。脱空类病害被错误识别为正常的机率为2.0%,疏松类病害被识别为正常的机率为6.6%。由此可见,本文所提出的病害识别方法,对于疏松类错误识别的几率较大。经分析存在两点可能的原因:一是疏松类病害通常不是局部的,而是范围较大的,本文选取的A-scan一维信号仅能捕捉局部信息,因此对于在局部表现不明显的、位于疏松病害边界的部分疏松类信号被识别的准确率较低;二是疏松类病害的识别存在一定难度,轻微的疏松与正常类路基在大部分信号区间内表现差别不大,因此疏松类病害与正常类的识别错误风险较大。综上所述,基于本文所提出的时域-频域的特征提取方法结合XGBoost分类算法,应用于探地雷达A-scan数据的病害类别分类,不仅处理速度快,而且各类病害类别的识别效果较好,适于在工程上快速应用。

5 结语

为了提升探地雷达A-scan数据在公路深层病害分类中的准确率,本文提出面向探地雷达数据病害库的数据采集方法和预处理方法,设计处理探地雷达A-scan信号的特征提取过程,并将人工智能领域最新分类预测算法XGBoost算法应用到探地雷达领域进行识别。结果显示:通过结合钻芯取样和专家解释标定,获取海量病害数据库,采集建立200万余条有效数据;总结出疏松、裂缝或断层和脱空三类病害在A-scan图像中的特点,为病害的特征提取和识别提供了有效依据;最后应用XGBoost算法对公路深层病害进行多分类,算法识别准确率最高可达94%,训练和验证的精度均满足工程应用的需要,划分类别准确,处理速度快,适合公路路基病害模式类的快速识别,在工程应用中具有良好应用前景。其中,XGBoost算法对公路路基病害(疏松、脱空和裂缝或断层)分类精度分别为93%、96%、98%。对裂缝或断层的区分效果最优,但对疏松类病害的识别准确率有待进一步提高。下一阶段,可着重考虑对疏松类病害的识别特征进行评估、改善和扩充,降低其被错误识别的风险,并对各类病害发育程度进行深入探究,为全周期养护管理提供决策支持。

作者贡献声明:

杜豫川:修改文稿,确定文稿

都州扬:处理数据,撰写文稿

刘成龙:设计实验,确定文稿

猜你喜欢
探地特征提取雷达
探地雷达法检测路面板脱空病害的研究
基于超表面的探地雷达增强探测研究
全极化探地雷达系统
空间目标的ISAR成像及轮廓特征提取
DLD-100C型雷达测试方法和应用
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
雷达欺骗干扰的现状与困惑
雷达
微动目标雷达特征提取、成像与识别研究进展