王 珺,孙进越,俞 凯,刘 成,吴 晨,陈有路,胡琦瑶
(1.西北大学 信息科学与技术学院,陕西 西安 710127;2.西北大学 文化遗产学院,陕西 西安 710127;3.西安市文物保护考古研究院,陕西 西安 710054;4.咸阳博物院,陕西 咸阳 712000;5.陕西省丝绸之路文化遗产数字化保护与传承协同创新中心,陕西 西安 710127)
中国古代青铜器历史悠久,体现着各个时期的文化特点,蕴含着极高的研究价值[1]。青铜器锈蚀类别标识任务,是对青铜器表面的不同锈蚀进行识别标识,特别是有害锈的标识,从而为后续不同锈蚀的处理以及青铜器的保护及修复提供依据。然而,由于青铜器锈蚀产生较为随机,且锈蚀混杂,不易识别,这些因素给青铜器锈蚀标识带来了极大的挑战[2]。现有的青铜器锈蚀标识多采用人工方式,不仅耗时耗力,还会因个人经验差异带来标识的不一致性[3],有些方法甚至需要取样,对文物样本带来二次损伤。因此,迫切需要研究无损且智能的青铜器锈蚀标识方法。
近年来,随着文物保护研究手段的日益丰富,以及人工智能的飞速发展,开发智能且无损的青铜器锈蚀标识方法成为可能。其中,高光谱成像技术作为一种无损的数据采集技术,在农业[4]、遥感[5]、军事等领域应用广泛,近几年,在文物分析与保护领域也崭露头角,特别是在书画、壁画等文物保护研究中取得受人瞩目的进展[6]。高光谱图像包含着丰富的光谱信息,且具有“图谱合一”的特点,而不同锈蚀的本质是不同的化学组成,其具有光谱差异,因此,基于高光谱成像与分析的锈蚀标识成为可能。
本文将基于现有先进的深度学习等方法[7],深入挖掘青铜器锈蚀的光谱与空间特征,提出一种基于多分组策略LSTM和CNN的端到端青铜器锈蚀类别标识网络框架(multi-group LSTM and CNN,MGLC)。该框架由一个CNN网络和多分组策略的LSTM网络构成,LSTM可以从光谱序列中提取更为有效的光谱特征,而多分组策略可以同时兼顾局部和全局的光谱特征,增加对锈蚀识别的准确率;在此基础上,联合CNN网络,兼顾光谱与空间特征,更有利于标识有害锈病害的分布。
由于组成成分的原因,青铜器具有在空气中极易氧化的性质。受地理环境和埋藏条件的影响,青铜器锈蚀产物分布在整个器物表面,形成锈蚀均匀分布区域和锈蚀不均匀分布区域,常见的青铜器锈蚀产物包括粉状锈、土锈、钙结物等[8],如图1所示。多种多样的锈蚀产物,以及自身空间排布紧密的结构特点,给青铜器锈蚀类别标识任务带来了极大的挑战。
图1 青铜器表面锈蚀类别示意图Fig.1 Schematic diagram of corrosion types on the surface of bronzes
高光谱图像分类是利用其丰富的光谱-空间信息对遥感图像的地物类别标识[9]。青铜器高光谱图像在未破坏青铜器原始空间信息的前提下,为标识任务提供了丰富的光谱信息。随着深度学习的飞速发展,越来越多的深度学习方法也被应用于高光谱图像分类,其中包括很多像素级分类的方法[10]。Yang等人提出了卷积神经网络(convolutional neural network,CNN)用于解决高光谱图像的分类任务[11],但是,仅仅使用卷积来进行特征提取,没有考虑各个光谱维度特征之间的相关性,以及光谱序列的上下文信息,在处理空间分辨率较小的青铜器高光谱图像时,不能将关注点更多地集中在光谱信息上,其结果往往区域性不强,精确度不高,可视化结果较差。Hochreiter S等人提出的基于LSTM网络的上下文特征提取网络,在自然语言处理(NLP)方面取得了巨大的进展[12],其可以较好地提取出目标上下文之间的联系,从而提升模型的整体效果,鉴于此特点,Xu等人提出了基于LSTM网络的光谱特征提取方法,但是其不能兼顾局部和全局特征[13],分类准确度仍有待提高。因此,本文将CNN网络与LSTM网络相结合,使空间特征和光谱特征同时用于青铜器锈蚀识别任务中,为了在光谱特征的提取过程中兼顾局部和全局特征,在LSTM网络中还引入了粗细两种粒度的光谱分组策略。
MGLC网络分为CNN网络和多分组策略的LSTM网络两个部分,CNN网络由多个卷积层和池化层组合构成,多分组策略LSTM网络由两种策略的LSTM并联构成,MGLC网络框架如图2所示。在图2中,青铜器高光谱图像F∈RC×H×W(C、H、W分别表示图像的长度、宽度和光谱数量)进入到网络后会分别通过CNN网络和多分组策略LSTM来提取空间特征和光谱特征。在CNN网络中,首先使用PCA方法对图像进行降维[14],提取出特征丰富的波段,得到降维图像F′∈RC×H×D,然后使用3×3的卷积核对降维图像F′进行3次卷积特征提取得到支路空间特征FC3,再利用非线性函数Relu激活,每次卷积后得到的特征都通过池化层再一次降维。为了将浅层与深层特征更好地融合,获取更丰富的空间特征,将空间特征FC3以及第一层卷积池化后的特征FC1通过全连接层后合并得到空间特征FC。在多分组策略LSTM网络中,首先输入图像粗细粒度的两种不同光谱组合,并经过LSTM网络分别提取光谱特征FS1和FS2,然后,将两种光谱特征FS1、FS2通过全连接层后合并得到光谱特征FS。最后,将空间特征FC和光谱特征FS合并,送入全连接层,再利用softmax函数得到分类结果。由于在MGLC网络中,不仅获取了青铜器高光谱图像的空间信息,还兼顾了全局与局部的光谱维信息,能够获得较满意的结果。
图2 MGLC网络框架Fig.2 MGLC network framework
由于高光谱图像每一像素点连续光谱曲线类似于连续有序的向量,因此,有学者采用LSTM网络进行光谱特征的提取[11]。但是,高光谱图像光谱波段数量多,仅采用一种光谱分组策略,很难兼顾光谱的局部与全局特征,导致光谱特征不能充分提取。因此,本文引入了两种光谱分组策略,分别以粗细两种粒度获取光谱的局部与全局特征。
1)分组策略1
pi(M′+5),…,pi(2M′)],
pi(2M′+5),…,pi(3M′)],
pi(TM′+5),…,pi(τM′)]。
2)分组策略2
pi(1+(M′-1)τ)],
pi(2+(M′-1)τ)],
pi(3+(M′-1)τ)],
如图3所示,分组策略2侧重于全局特征,划分的短序列之间光谱波段相聚较小,得到的光谱特征之间联系紧密,较好的表现光谱的整体性;但是短序列内部光谱波段跨度较大,光谱波段离散,局部特征有所不足。
图3 光谱分组策略Fig.3 Schematic diagram of frequency band classification strategy
因此,两种分组策略可以兼顾局部与全局的光谱特征,能够更充分提取光谱信息,在后文实验中也进行了验证。
MGLC网络是一个多支路并行的神经网络,采用RMSProp算法优化[15],学习率是0.001,衰减因子是0.9。由于青铜器高光谱图像是三维立方体数据,数据量大,所以在CNN支路上采用PCA降维,尽可能减少网络参数,使网络尽快达到最优。最终在多尺度CNN的3个卷积层中选取的卷积核个数均为32,卷积感受也均为3*3,具体参数如表1所示;多分组策略LSTM网络具体参数如表2所示。
表1 CNN网络参数Tab.1 CNN network parameters
表2 多分组策略LSTM网络参数Tab.2 Multi-LSTM network parameters
首先,为了验证多分组策略的有效性,本文设计了3种分组策略组合进行消融实验;其次,将所提出的方法与现有网络方法进行实验对比,所有的实验结果均取20次实验的平均值;此外,在未进行标定的区域也进行了实验,以验证提出方法对更大区域的标识效果,由于没有标准标识结果,本文采用专家评价的方法,由专业人员使用RX-100超景深三维显微镜对青铜器进行扫描,通过20倍放大显微图辅助评价。本文中所有实验均在一台拥有8核i7-2060、16GB RAM的计算机上运行,网络模型采用Tensorflow深度学习框架构建。评价指标采用常用的平均精度(AA)、整体精度(OA)和Kappa系数。
本文实验的青铜器样本在河南发掘,现保存于西北大学文化遗产学院。由于年代久远,青铜器表面布满了各种类别的锈蚀物。在实验过程中,本文利用Specim IQ高光谱照相机获取青铜器的高光谱数据,如图4所示。Specim IQ高光谱照相机的空间分辨率为512×512,光谱范围为397~1 003 nm,光谱分辨率为0.4~1 μm。为了减少其他光源、背景信息等客观因素对锈蚀识别结果的影响,原始数据进行了辐射校正、图像裁剪等预处理。
图4A是青铜器的真彩色图像,总共有21 265个像素,其中3 529个像素具有锈蚀类别标签,其余像素无标签。有标签的像素点作为训练集和测试集,并通过计算客观指标评价方法的有效性。如图4B所示,总共包含了6种锈蚀类别,每一种类别的训练样本、测试样本个数如表3所示。
图4 青铜器高光谱数据集Fig.4 Bronze hyperspectral data set
表3 青铜器数据集训练和测试样本数量Tab.3 Number of training and test samples for bronze dataset
为了验证多分组策略的LSTM网络的性能,本文设计了两种对比网络:CNN-LSTM-1,由CNN网络和分组策略1组成;CNN-LSTM-2,由CNN网络和分组策略2组成;本文提出的MGLC网络,则采用CNN网络和分组策略1、2共同组成;此外,还与无多分组策略特征提取网络CNN进行比较。分类结果如表4所示,使用了分组策略的网络性能总是优于仅使用CNN网络的分类性能,例如,在表4中CNN-LSTM-1、CNN-LSTM-2、MGLC网络,无论是AA、OA还是Kappa都优于CNN网络,说明将空间与光谱特征结合,能有效提升网络整体的分类性能。多分组策略较单一分组策略分类精度更优,这是因为多分组策略兼顾了光谱的整体和局部特征。此外,分组策略2比分组策略1的分类效果略优,其原因有两个:①与分组策略1相比,在相同的感受步长情况下分组策略2可感知的光谱序列范围更广,可以学习到更多的光谱信息;②由于分组策略2光谱与光谱之间的间隔更小,使得网络可以在相邻光谱之间学习到更加充分的上下文信息。
综上所述,MGLC网络在分类时不仅将空间特征和光谱特征同时兼顾,在提取光谱特征时还同时考虑了整体特征和局部特征,取得了较好的分类结果。
表4 不同分组策略的网络分类精度Tab.4 Network classification accuracy of different grouping strategies %
为了验证MGLC方法的有效性,与现有方法进行了对比。由于现有一些文物高光谱图像处理都是在ENVI软件上完成的,所以本文选取了基于ENVI上的 PCA、SVM的分类方法、基于 LSTM 的高光谱图像分类[16]、基于 CNN 的高光谱图像分类[17],以及仅基于多分组策略光谱特征提取的分类网络(LSTM1&2)作为对比方法。需要说明的是,LSTM1&2 是本文所提出的基于光谱特征提取的分类网络,主要目的是进一步验证光谱特征和空间特征结合的分类效果。基于PCA的方法是通过SVM分类器分类,SVM的参数由5层的交叉验证决定,在参数设置上,采用相关论文的默认值,实验中训练样本占总样本数量的5%。
图5展示了不同方法的锈蚀识别结果,通过图5可以清晰地看出,本文提出的MGLC方法视觉效果优于所有对比方法。图5B和图5C的分类效果最差,钙结物、绿铜矿、粉状锈、蓝铜矿、红铜矿均有错分。与图5B和图5C相比图5E和图5F在粉状锈这一类别有了很大提升,但是,其余类别的分类效果还有待提高,在钙结物和绿铜矿这两个类别上仍有明显错误。相比之下,图5D中钙结物具有较好的分类效果。在图5G中每个类别之间的分界清晰,区域性更明显,具有更好的分类效果。
表5利用客观评价指标展示了不同方法之间的识别性能,通过表5可以看出,传统分类方法PCA和SVM的分类效果不尽人意。仅使用分组策略的LSTM深度学习方法和LSTM1&2深度学习方法在3个指标上都至少提高了3%以上,CNN方法更是提升了15%以上。这一结果表明,相较于传统分类方法,深度学习方法在青铜器锈蚀标识任务也能够取得更好的效果。本文提出的MGLC方法与CNN方法相比,在AA类别分类平均精度提高了4.8%,在OA整体分类精度提高了4.1%,Kappa系数提高了5.2%,说明本文方法有着不错的分类效果。从表5也可以看出,本文的方法MGLC可以将6类锈蚀类别都较好地标识出来,并且6个类别都取得了最高的分类精度,由于类别2土锈和类别4绿铜矿的光谱曲线极为相似,所以,在对比网络中这两类的标识精度都不是很高,但本文的方法都将其提升到95%以上。
图5 不同算法在青铜器数据集上的分类结果Fig.5 Classification results of different algorithms on bronze ware data sets
表5 不同算法在青铜器数据集上的分类精度Tab.5 Classification accuracy of different algorithms on bronze dataset %
为了进一步验证MGLC方法的效果,对样本更多的区域进行了标识,并与现有方法进行比较。由于没有准确的标识结果,所以采用专家评价的方式进行评价。首先,采用RX-100超景深显微镜对样本放大20倍,以更清楚地通过目视观察对锈蚀类别进行判别;其次,对照几种方法的标识结果分别进行评价。图6A为放大20倍的示意图(由于版面限制,进行了缩小处理),采集时采用HR-2016的镜头,图中标尺每格为15 000 μm。
通过放大图与几种标识结果的比较可以发现,图6B和图6C对于蓝色蓝铜矿与红色的赤铜矿识别过于敏感。其中,图6B将左下区域土锈中不明显的红色锈蚀标识过多,左上区的不明显蓝色铜锈标识过多,粉状锈与绿铜矿标识不够准确,对于真实的锈蚀分布有一定的偏离。图6C更是将绿色的绿铜矿与蓝铜矿混为一种区域,不太符合真实的情况。图6D比较笼统地将锈层从表面高低错落与颗粒度大小、密度不同等特征划分了几个大致的区域,有一定的空间分布价值,但不能单独用于表达锈蚀的分布情况。图6E虽然比较准确地标识出上半部绿色绿铜矿与土锈、钙结合的混合,准确区分了土锈与钙结合,但是,对于左下区域土锈中的红色赤铜矿过于敏感,将左下区域的蓝铜矿也识别过度,因此,也不能单独用于标识锈蚀分布。对比样品放大20倍的照片,图6F非常细致地标识了6种锈蚀的分布,准确地识别了蓝铜矿与绿铜矿,成功地将整个区域的土锈准确地标识出来,对于粉状锈和红色赤铜矿标识准确,对左下区域的土锈与红色赤铜矿的混合状态也准确表达出来了。由此可见,LSTM分组方法可以充分利用光谱信息,智能标识6种锈蚀的分布。由图6G可以看出,本文提出的方法MGLC准确地把锈蚀分布与锈蚀表面高低错落、颗粒度、密度等不同信息进行了综合展示,突出每一种锈蚀相对集中分布的区域,特别是有害锈“粉状锈”所处的位置。同时,智能地将左上区与左下区的碱式碳酸铜分成了上蓝下绿,从样品的显微照片来看,上半区域的绿色铜锈是有偏蓝色的特点,MGLC把其标识为蓝色这一点显示出智能计算拉大分辨能力的优势。综上所述,从智能识别到文物保护工作中绘制锈蚀分布图的功能需要来考虑,本文提出的方法标识的锈蚀类别分布比较符合文物保护病害图绘制的需要。
图6 不同算法在青铜器数据集有标签面的全图分类结果Fig.6 Classification results of different algorithms in bronze dataset with labeled surface
本文提出了一种基于分组LSTM与CNN的青铜器锈蚀类别智能标识方法。该方法在CNN网络的基础上引入了多分组策略的LSTM网络,CNN网络可以获取丰富的空间信息,多分组策略的LSTM可以探索光谱的上下文信息,从而充分利用了青铜器高光谱图像的空间信息和光谱信息,达到对青铜器表面锈蚀智能标识的效果。实验结果表明,本文的方法标识准确率较高,且每个类别之间的分界清晰,区域性更明显,标识的锈蚀类别分布较符合文物保护病害图绘制的需要。但是,由于青铜器锈蚀存在混叠现象,对标识产生干扰,这是后续将进一步解决的问题。