彭 博, 姬 然
(1. 重庆交通大学 交通运输学院, 重庆 400074; 2. 俄克拉荷马州立大学,土木和环境工程学院,俄克拉荷马 74078, 美国)
基于容差PR曲线的路面裂缝识别算法性能评价机制
彭 博1, 姬 然2
(1. 重庆交通大学 交通运输学院, 重庆 400074; 2. 俄克拉荷马州立大学,土木和环境工程学院,俄克拉荷马 74078, 美国)
为了客观合理地评价路面裂缝图识别算法的性能,提出了基于容差PR曲线的算法性能评价机制。首先,建立路面裂缝图像基准库,为裂缝识别算法性能评价提供统一规范的测试图像;其次,提出考虑容差的准确率-召回率和F1值计算方法,作为算法性能的衡量指标;然后,提出裂缝识别算法的PR曲线评价方法;最后,以两套裂缝识别算法为例进行PR曲线性能评价分析。结果表明:PR曲线评价机制确立了统一的基准测试图像、衡量指标及评价方法,能评价无参数、具有1个或多个参数的裂缝识别算法的性能(包括准确率-召回率、F1值及算法稳定性),有助于进行算法性能评价与改进。
道路工程;评价机制;图像处理;裂缝识别算法;容差;PR曲线
作为路面破损的主要形态之一,裂缝严重影响着路面质量、服务性能和寿命。为此,自20世纪 80 年代以来,国内外学者对路面裂缝自动检测展开了大量研究,取得了丰硕的成果,如阈值分割方法[1-2]、边缘检测算法[3-4]、种子识别算法[5-6]、基于频域变换的方法[2,7]、机器学习算法[8]及基于纹理分析[9-10]、模糊逻辑[11]和全局优化[2,12]的裂缝识别算法。不过,面对众多的裂缝识别算法,尚缺乏一套客观合理的性能评价机制来衡量它们的优劣。
综观裂缝识别算法的性能评价分析,主要涉及测试图像、评定指标和评价方法3个方面。对于测试图像,既有文献大都基于各自的路面图像集进行测试[4,7,12],因而同一算法在不同文献中评价结果可能截然不同。对于评价指标,许多研究只应用实例进行定性分析[4,13];部分文献采用准确率衡量算法优劣[7,14];准确率-召回率(precision-recall)[12,15]是常用的评价指标,它通过对比人工标注的实际裂缝图像和检测结果图像的每个像素,计算出准确率、召回率,可反映算法的准确度和全面性,但未考虑检测结果与真实裂缝图像之间应具有一定的容差。准确率-召回率曲线(PR曲线)是公认较为合理的裂缝识别评价方法[12,15],但只能对无参数或1个参数的算法进行评价,无法用于多参数的裂缝识别算法评价。
考虑到既有算法评价指标体系与方法存在一些不足,同时也缺乏统一规范的测试图像集,笔者从路面图像基准库、评价指标体系及评价方法3个方面入手,提出了裂缝图像自动识别算法的系统性评价机制,有利于客观合理地衡量算法性能优劣,引导裂缝识别算法改进。
1.1 背景介绍
许多研究采用数十张到数百张路面图像对裂缝检测算法进行评估,但大都存在一些局限,有待进一步改进:① 由于路面状况复杂多变,同一种裂缝识别算法对于不同的图像集检测结果可能大相径庭,也就是说,有必要基于多个图像集对算法进行测试,以综合评定算法性能及适用图像集;② 已公开的各种裂缝检测算法大都基于各自的图像集进行性能测试,由于测试图像不统一,这些算法究竟孰优孰劣也无从评定。
由此可知,对于某一特定的路面裂缝识别算法,有必要利用多个图像集进行性能评测;同时,为了客观评估和对比多种裂缝识别算法的性能,也需要基于同一图像集进行测试评估。
因此,笔者遴选具有较多裂缝(包括横向、纵向、块状裂缝及龟裂等)的典型路面图像,形成了4个裂缝识别算法测试图像集。新开发的算法和已有算法均可以据此进行性能测试,从而为裂缝识别算法的评价和对比分析提供统一、规范的测试图像。
1.2 路面裂缝图像基准库
根据路面类型,路面可分为沥青路面和水泥混凝土路面;根据路面图像质量高低和复杂性,又可分为一般路面图像和复杂路面图像。据此建立路面裂缝图像基准库,涵盖了4个图像集(由DHDV[16]采集,图像尺寸为高2 048像素×宽4 096像素,精度1 mm/像素),如图1。其中,图像张数指路面三维深度图或灰度图的数量。这样,就可以基于不同类型、不同复杂程度的路面图像对算法性能进行综合测试与评价。
图1 路面裂缝图像基准库Fig. 1 Benchmark library of pavement crack images
每个图像集包含6部分:① 路面原始三维数据;② 路面三维深度图像;③ 光照强度图像(来自于三维虚拟路面);④ 路面灰度图像;⑤ 人工绘制的真实裂缝图像;⑥ 备注信息。其中,三维路面裂缝识别算法基于①、②、③、⑤进行评价分析,二维裂缝图像识别算法基于④、⑤进行评价分析。
图2展示了图像集I~IV的图像实例。
图2 路面裂缝图像基准库图像(2 048×2 048)Fig. 2 Images of benchmark library of pavement crack images (2 048×2 048)
2.1 准确率-召回率
裂缝检测结果既要准确又要全面,准确率-召回率[12,15]正是这样一组评估指标,公式如下:
(1)
(2)
式中:Pr为准确率;Re为召回率;TP为正确检测出来的裂缝像素数目(true positive);FP为不是裂缝却检测为裂缝的像素数目(false positive);FN为是裂缝却没检测出来的像素数目(false negative)。
令集合Γ1为路面裂缝识别算法检测结果(如图3(a),图3(b)三维深度图像);集合Γ2为实际应检测出来的真实裂缝如图3(c);Γ3=Γ1∩Γ2,为算法正确地检测出来的裂缝像素集,那么,
TP=Γ3的裂缝像素数目
(3)
TP+FP=Γ1的裂缝像素数目
(4)
TP+FN=Γ2的裂缝像素数目
(5)
显然,Pr和Re越高越好,但很多情况下它们是矛盾的。因此通常需要综合考虑二者,F1值便是常用的综合指标,F1值越大表明算法越优。
(6)
图3 准确率-召回率计算图像Fig. 3 Calculation images for precision ratio and recall ratio
2.2 考虑容差的准确率-召回率
由于路面裂缝走向和宽度毫无规律,人工绘制的真实裂缝图像Γ2与理论上真实的裂缝图像可能存在偏差。为降低误差影响、保证准确率-召回率的客观性和有效性,可考虑以下方法:
1)请经过严格培训且经验丰富与路面工程相关专业人员绘制真实裂缝图像,力求Γ2贴近裂缝的真实形态(笔者已加以考虑,裂缝图像基准库均由土木工程和交通工程研究生绘制);
2)允许Γ1和Γ2具有一定容差,并将该容差纳入到准确率-召回率计算过程中。
基于第2)点,笔者提出了考虑容差的准确率-召回率计算方法。如图4,对于任意裂缝像素(图4中的中心像素),具有半径为τ个像素的正方形邻域(容差邻域τ),准确率-召回率计算方法如下:
图4 裂缝图像容差Fig. 4 Tolerance of crack images
1)如果Γ1任意像素的容差邻域τ包含有Γ2的裂缝像素(1个或以上),则认为算法准确识别了该像素。计算出Γ1满足该要求的所有像素数量,计为TP1,则准确率可计算如下:
P(τ)=TP1/Γ1的裂缝像素数目
(7)
式中:P(τ),考虑容差τ的准确率。
2)如果Γ2任意像素的容差邻域τ包含有Γ1的裂缝像素(1个或以上),也认为算法准确识别了该像素。计算出Γ2满足该要求的所有像素数量,计为TP2,召回率可计算如下
(8)
式中:R(τ)为考虑容差τ的召回率。
同理,综合指标计算方式也有所改变:
(9)
式中:F(τ)为考虑容差τ的F1指标。
可以看出,在计算考虑容差的准确率和召回率时,检测结果Γ1和真实裂缝图像Γ2的裂缝像素拥有半径为τ个像素的容差邻域(见图4),只要Γ1和Γ2的裂缝像素在缓冲区重叠,均认为算法准确识别了裂缝像素。特别地,当τ=0时,TP1=TP2=TP,因此,Pr、Re和F1可认为是容差=0时的特例。
建立容差邻域可柔性地匹配检测结果和真实裂缝图像,有利于避免人工绘制误差的影响。容差τ越大,越可能高估准确率和召回率,因此在评测算法性能时需要选择合适的τ值。另外,评估多种算法的性能时,应取同一τ值。
3.1 PR曲线简介
PR曲线(PR curve)[12,15]又称为查准率-查全率曲线,源于信息检索领域,用以表现检索算法的性能。绘制过程如下:① 遍历算法参数值产生一系列检测结果(令为ξ个),计算出每个检测结果的准确率P(τ)1,P(τ)2,…,P(τ)ξ和召回率R(τ)1,R(τ)2,…,R(τ)ξ;② 以准确率为纵坐标,召回率为横坐标生成趋势曲线,即PR曲线。特殊地,无参数的算法只产生一个检测结果(ξ=1),PR曲线为点[P(τ)1,R(τ)1],如图5中的PR曲线3。
图5 PR曲线示意Fig. 5 Sketch map of PR curves
可以看出,PR曲线越越靠近右上方越好(准确率和召回率均较高,如图5,算法1、2、3对应于PR曲线1、2、3,其优劣排序为:算法2,算法1和算法3)。PR曲线本质上仍以F1值作为评价指标(PR曲线右上方F1值较高),因此可以视为F1值趋势曲线,比单独的F1值提供了更丰富的信息。
PR曲线评价方法在信息检索等领域得到了广泛的应用,优于单独的准确率、召回率或F1指标评价方法。考虑到路面裂缝识别与信息检索具有相似性(前者识别裂缝像素,后者识别所需信息),笔者采用PR曲线评价裂缝检测算法性能。
3.2 PR曲线绘制
3.2.1 准确率-召回率计算
计算准确率P(τ)1~P(τ)ξ和召回率R(τ)1~R(τ)ξ。ξ取决于算法参数值情况:算法无参数时,ξ=1;若算法参数数目Υ≥1,令参数分别为Pa1、Pa2、…,PaΥ,Pa1具有η1个取值,Pa2具有η2个取值,…,PaΥ具有ηΥ个取值,那么,
(10)
式中:∏表示所有元素的乘积;j为参数编号,j=1,2,3,…,Υ。
(11)
(12)
式中:AVE{·}为计算集合所含元素的均值。
3.2.2 生成PR曲线
由于算法性能对参数的变化比较敏感,[P(τ)N,R(τ)N]可能呈现波动情况,需要确定合理的规则绘制PR曲线。根据[P(τ)N,R(τ)N]分布特性,PR曲线分为简单情形和复杂情形,如图6。
图6 PR曲线生成Fig. 6 Generation of PR curves
对于简单情形,准确率增加时召回率降低,或准确率降低时召回率增加。此时,顺次连接各个[P(τ)N,R(τ)N]点即可形成趋势平稳的PR曲线,如图6(a)。通常,具有单个参数的算法会出现这种情况:特殊地,无参数算法PR曲线仅为点[P(τ)1,R(τ)1],也属于简单情形。现有文献常用的PR曲线多用于简单情形。
对于复杂情形,[P(τ)N,R(τ)N]点比较分散,准确率和召回率没有固定的增减规律,见图6(b)虚线,具有两个或以上参数的算法通常出现这种情况。笔者利用搜索凸包(convex hull)的Graham Scan算法[17]寻找右上方轮廓点,并将其连接起来形成PR曲线,见图6(b)实线。
3.3 裂缝识别算法的PR曲线评价方法
主要有5个步骤,如图7。对于测试图像,可在裂缝图像基准库中挑选若干张具有代表性的路面图像。对于容差设置,τ越大,越可能高估计算法性能,也会增加检测结果和真实裂缝图像像素匹配的计算量,经过大量测试,推荐容差经验值τ=3个像素。生成PR曲线之后,即可进行算法评价分析。
图7 算法评价流程Fig.7 Flow chart of algorithm evaluation
以路面三维图像裂缝自动并行识别算法(含阈值参数K、t, 简称裂缝并行识别算法)[18]和三维虚拟路面裂缝自动识别算法(含阈值参数Kh和K1,简称虚拟路面裂缝识别算法)[18]为例,阐述PR曲线评价方法的具体步骤。
1)选择测试图像:在图像基准库的4个图像集中分别挑选10张图像,测试算法对水泥路面和沥青路面图像的裂缝检测效果。
2)容差设置:τ=3个像素。
表1 一张图像的PR值
表2 PR均值(PR曲线数据)
4)生成PR曲线:将表 2的准确率-召回率绘制为散点图,如图8。可看出准确率和召回率分布比较杂乱,属于复杂情形。于是,基于凸包搜索方法[17]检测右上方外轮廓点(见表 3),最终绘制出PR曲线(见图8)。
图8 PR曲线生成实例Fig. 8 Example of PR curve generation
(P(3),R(3))(P(3),R(3))(P(3),R(3))(P(3),R(3))(1.00,0.40)(0.98,0.69)(0.94,0.86)(0.69,0.95)(1.00,0.46)(0.98,0.71)(0.90,0.89)(0.47,0.97)(0.99,0.63)(0.97,0.77)(0.83,0.91)(0.17,0.99)(0.99,0.66)(0.96,0.82)(0.74,0.94)(0.11,0.99)
5)算法性能分析:由于有两个算法、4组测试图像,按照步骤1)~步骤4)的方法,可以获得8条PR曲线,将它们按图像集进行分组绘制,结果如图9。
以图9(a)的PR曲线为例(一般沥青路面图像),裂缝并行识别算法的准确率和召回率变化范围较大,最右上角坐标为(0.94,0.86),此时算法F1值达到最高(F1=0.90,K=0.96,t=5),准确率、召回率和F1值分别达94%、86%和90%,推荐最佳参数值K=0.96,t=5。对于虚拟路面裂缝识别算法,准确率和召回率变化幅度较小,当准确率=0.93,召回率=0.95时,F1达到最优(F1=0.94,Kh=0.984,K1=7),并推荐以Kh=0.984,K1=7为最佳参数值。总体而言,虚拟路面裂缝识别算法的PR曲线位于图像的右上方,可获得更高的F1值;此外,该算法PR曲线较短,说明数据点集中、性能比较稳定。因此,对于一般沥青路面图像,虚拟路面裂缝识别算法优于裂缝并行识别算法。
基于图9(b)~图9(d)的PR曲线评价算法性能的思路与图9(a)相似。将裂缝并行识别算法和虚拟路面裂缝识别算法PR曲线测试情况进行总结和对比分析,结果如表4。
表4 算法性能测试总结
图9 PR测试曲线(10张图像, τ=3)Fig. 9 PR test curves (10 images, τ=3)
可以看出,PR曲线评价方法以考虑容差的F1值为主要指标,可获得推荐参数值,也能考察算法稳定性,优于单独应用准确率、召回率或F1值的评价方法。同时,得益于路面裂缝图像基准库,还能确定算法适用范围。因此,形成了系统而规范的路面裂缝检测算法性能综合评价机制。
提出了路面裂缝自动检测算法性能的综合评价机制:路面裂缝图像基准库的建立为算法性能评价提供了规范的测试数据,有利于系统全面地评价和对比算法性能;考虑容差的准确率-召回率和F1值为客观地评价算法性能制定了衡量标准;PR曲线评价方法考虑了F1值及算法稳定性,有利于综合评价无参数、具有1个或多个参数的裂缝识别算法的性能。
路面裂缝识别算法评价机制的建立有利于客观合理地对算法性能进行评价和对比分析,引导算法改进工作,从而推动裂缝识别算法的研发和优化,改善裂缝识别准确率、完整性和稳定性,为路面养护管理、路面性能评价与预测、路面结构和材料设计奠定坚实的基础。
由于路面状况的复杂多样性,路面裂缝图像库还有待细化,容差设置也需要寻求更合理的依据。同时,还有必要进一步改善裂缝图像库、评价指标和方法,以适应路面裂缝从传统二维识别向三维识别发展的趋势。
[1] OTSU N A Threshold selection method from gray-level histograms[J].IEEETransactionsonSystemsMan&Cybernetics,1979,9(1): 62- 66.
[2] TSAI Y, KAUL V, MERSEREAU R M. Critical assessment of pavement distress segmentation methods[J].JournalofTransportationEngineering, 2010,136(1): 11-19.
[3] CANNY J .A computational approach to edge detection[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,1986,8(6):679- 698.
[4] 张娟, 沙爱民, 孙朝云, 等. 基于相位编组法的路面裂缝自动识别[J]. 中国公路学报, 2008, 21(2): 39- 42. ZHANG Juan, SHA Aimin, SUN Chaoyun, et al. Pavement crack automatic recognition based on phase-grouping method[J].ChinaJournalofHighwayTransport, 2008, 21(2): 39- 42.
[5] HUANG Yaxiong, XU Bugao. Automatic inspection of pavement cracking distress[J].JournalofElectronImaging,2006,15(1):013017.
[6] Gavilán M, Balcones D, Marcos O, et al. Adaptive road crack detection system by pavement classification [J].Sensors, 2011, 11(10): 9628-9657.
[7] 孙波成, 邱延峻, 梁世庆. 基于小波的路面裂缝识别研究[J]. 重庆交通大学学报(自然科学版), 2010, 29(1): 69-72. SUN Bocheng, QIU Yanjun, LIANG Shiqing. Cracking recognition of pavement surface based on wavelet technology[J].JournalofChongqingJiaotongUniversity(NaturalScience), 2010, 29(1): 69-72.
[8] CHENG H D, WANG J L, HU Y G, et al. Novel approach to pavement cracking detection based on neural network[J].TransportResearchRecord, 2001(1764): 119-127.
[9] MARTIN D R, FOWLKES C C, MALIK J. Learning to detect natural image boundaries using local brightness, color, and texture cues [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2004, 26(5): 530-549.
[10] HU Yong, ZHAO Chunxia, WANG Hongnan. Automatic pavement crack detection using texture and shape descriptors[J].IETETechnicalReview, 2010, 27(5): 398- 405.
[11] CHENG H D, CHEN J R, GLAZIER C, et al. Novel approach to pavement cracking detection based on fuzzy set theory [J].JournalofComputinginCivilEngineering, 1999, 13(4): 270-280.
[12] ZOU Qin, CAO Yu, LI Qingquan, et al. Cracktree: automatic crack detection from pavement images[J].PatternRecognitionLetters, 2012, 33(3): 227-238.
[13] 梁世庆, 孙波成, 邱延峻. 数学形态学路面裂缝识别算法研究[J]. 路基工程, 2010(1): 44- 46. LIANG Shiqing, SUN Bocheng, QIU Yanjun. Algorithm research for pavement crack recognition based on mathematic morphology [J].SubgradeEngineering, 2010(1): 44- 46.
[14] 高建贞, 任明武, 唐振民, 等. 路面裂缝的自动检测与识别[J]. 计算机工程, 2003, 29(2): 149-150. GAO Jianzhen, REN Mingwu, TANG Zhenmin, et al. Automatic road crack detection and identification [J].ComputerEngineering, 2003, 29(2): 149-150.
[15] LI Qingquan, ZOU Qin, LIU Xianglong. Pavement crack classification via spatial distribution features[J].EURASIPJournalonAdvancesinSignalProcessing,2011,2011(1): 649- 675.
[16] WANG K C P, HOU Zhiqiong, GONG Weiguo. Automated road sign inventory system based on stereo vision and tracking[J].Computer-AidedCivilandInfrastructureEngineering,2010,25(6): 468-477.
[17] GRAHAM R L. An efficient algorithm for determining the convex hull of a finite planar set[J].InformationProcessingLetters1, 1972, 1(4): 132-133.
[18] 彭博. 基于路面高精三维图像的裂缝自动识别与分类算法 [D]. 成都: 西南交通大学, 2014: 25-110. PENG Bo. AutomaticCrackDetectionandClassificationAlgorithmsBasedonHighResolution3DPavementImages[D]. Chengdu: Southwest Jiaotong University, 2014: 25-110.
(责任编辑:朱汉容)
Performance Evaluation Mechanism of Pavement Crack Recognition Algorithms Based on PR Curve with Tolerance
PENG Bo1, JI Ran2
(1. School of Traffic and Transportation, Chongqing Jiaotong University, Chongqing 400074, P. R. China; 2. School of Civil & Environmental Engineering, Oklahoma State University, OK, 74078, USA )
In order to assess the performance of pavement crack detection algorithm objectively and reasonably, an algorithm performance evaluation mechanism based on PR curve with tolerance was proposed. Firstly, a benchmark library of pavement crack images was built to provide the unified and standard test images for evaluating crack detection algorithm performance. Secondly, calculation methods of precision ratio, recall ratio andF1value considering tolerance were put forward as measurement indicators of algorithm performance. Then, a PR curve based on evaluation method for pavement crack detection algorithms was proposed. At last, two crack detection algorithms were evaluated and analyzed as examples by using PR curve. Results show that, the proposed PR curve evaluation mechanism establishes the unified benchmark test images, measurement indicators and evaluation method, which can assess performance (including precision ratio, recall ratio,F1values and algorithm stability) of crack detection algorithms without or with 1 or more parameters. It is helpful for algorithm performance evaluation and improvement.
highway engineering; evaluation mechanism; image processing; crack recognition algorithm; tolerance; PR curve
10.3969/j.issn.1674-0696.2017.07.07
2016- 01- 05;
2016- 02-24
重庆市社会事业与民生保障科技创新专项项目(cstc2015shms-ztzx30002;cstc2015shms-ztzx0127);重庆市科委基础科学与前沿技术研究项目(cstc2017jcyjAX0473);重庆市教委科学研究项目(KJ1600513);重庆交通大学科研启动项目(15JDKJC-A002)
彭 博(1986—),男,四川南充人,博士,主要从事交通领域的图像与视频检测研究工作。E-mail:pengbo351@126.com。
U416.23
A
1674-0696(2017)07-039-07