宋传鸣, 周雨晴, 张晋豪, 洪 飏
(1.辽宁师范大学计算机与人工智能学院,辽宁 大连 116029;2.辽宁师范大学文学院,辽宁 大连 116029;3.苏州大学江苏省计算机信息处理技术重点实验室,江苏 苏州 215006)
作为目前我国所见最早的成熟文字系统,甲骨文是一种锲刻在龟甲或兽骨上的古文字,它对中国乃至世界文明溯源均有极其重要的研究价值.在我国政府的大力推动下,甲骨文研究已经进入一个深入发展的新阶段,以人工智能、大数据技术推进甲骨文全息性研究及数字化工程建设,成为甲骨文信息处理领域的研究热点[1].作为甲骨文数字化工程的基础问题,甲骨拓片图像分割的目的是利用数字图像处理和计算机视觉技术,在甲骨拓片图像的复杂背景中提取出特征分明且互不交叠的独立文字区域.它是甲骨文字修复、字形复原与建模、文字识别、拓片缀合等处理的技术基础[2].
然而,甲骨拓片图像分割往往受到点状噪声、人工纹理和固有纹理3类干扰元素的严重影响[3].其中,点状噪声是由甲骨表面的颗粒状凹凸物经墨拓后所形成的小面积连通域;人工纹理主要包括片状斑纹、兆纹2 类,前者是在占卜前对甲骨施加钻凿加工使之产生巢槽、并经墨拓所形成的大面积连通域,后者则是甲骨表面在占卜烧灼过程中出现的“卜”形裂纹经墨拓所形成的连通域;固有纹理由龟甲外层角质盾片接合处的“盾纹”、内层骨板接合处的“齿缝”所组成,它们在墨拓后会在拓片图像中形成长条状的大面积连通区域.由于缺乏对甲骨文字及其干扰元素的形态先验特征的特殊考量,通用的代表性图像分割方法目前尚不能对甲骨拓片图像中的文字目标和高亮度的点状噪声、人工纹理、固有纹理进行有效判别,其误分割率较高,在处理甲骨拓片图像时均有一定局限性.如何从干扰众多的复杂背景中准确地分割出独立文字区域,仍然是一个亟待解决的具有挑战性的问题.
鉴于此,提出一种连通区域拓扑结构约束的甲骨拓片图像分割.首先,利用超像素分割方法和最大类间方差法将甲骨拓片图像进行初始分割;其次,采用最小凸包算法从拓片轮廓附近的开放粘连背景中提取断裂文字;最后,利用数学形态学运算和欧拉数、方向投影变换对连通区域的拓扑结构和内部形状特征进行分析,进而获得甲骨文字的精细分割结果.其主要贡献在于2个方面:
1)根据甲骨文字、人工纹理与固有纹理的连通域特征,利用超像素分割将甲骨拓片图像中具有相似特征结构的区域进行聚类分组,有利于最大类间方差法自适应地选取最佳阈值并准确提取甲骨拓片的外部轮廓,并进一步通过最小凸包算法确定甲骨断裂处的开放边界位置,有效解决断裂文字与拓片背景相互粘连的问题.
2)统计发现甲骨文字与干扰元素之间存在不同的区域特征和拓扑结构,如连通区域面积、欧拉数及内部形状等,进而建立了判别文字区域与非文字区域的形态学先验,从而增强分割过程对背景粘连、残留片状斑纹和兆纹的稳健性,有效抑制点状噪声、人工纹理、固有纹理的干扰.
本节将从通用的图像分割方法和面向拓片图像的分割方法两方面介绍相关的研究工作.
代表性的通用图像分割方法主要包括以下7类.
1)基于全局阈值的图像分割方法[4-5].无法对文字目标与非文字区域进行有效分割,由于片状斑纹、齿缝、盾纹等纹理元素和点状噪声的亮度与甲骨文字几乎相同,因此该类方法往往存在较为严重的误分割现象.
2)基于区域的图像分割方法[6-7].容易丢失对比度低的重要轮廓和边缘,甚至破坏甲骨拓片图像的细微笔画特征,也不能独立处理文字与甲骨背景的粘连.
3)基于边缘的图像分割方法[8-9].不能对前景物体的区域形状进行约束和分析,往往将片状斑纹、兆纹、盾纹等误判为甲骨文字,而且对于细小边缘和点状噪声非常敏感,容易在其干扰下产生虚假轮廓和边缘.
4)基于连通域的图像分割方法[10-11].利用前景目标和背景区域的连通性进行分割,可是没有考虑甲骨文字与干扰元素在连通区域上的拓扑结构差异,而且文字与甲骨背景的粘连还会破坏前景目标、背景区域的连通性假设,以致严重影响了该类方法对粘连区域的分割精度.
5)基于活动轮廓模型的分割方法[12-13].该方法仍存在对初始轮廓曲线的位置敏感、过度依赖权重参数的选择、不能处理非闭合的物体边界等不足,尤其是无法有效分割甲骨断裂、残缺处的甲骨文字.
6)基于模糊聚类的图像分割方法[14-15],由于模糊隶属度函数未能对甲骨拓片图像中干扰元素的分布规律进行有效建模,对点状噪声、背景强度不一致等现象比较敏感,不具备判别甲骨固有纹理和人工纹理的能力.
7)基于深度学习的分割方法[16-17]].该方法凭借卷积神经网络的多尺度信息表示能力,利用甲骨文字与点状噪声、盾纹、衬底背景等干扰元素在不同尺度下的特征差异完成分割,如MultiResUNet方法[16]等。然而,神经网络却不能有效处理文字粘连现象,而且由于缺少对文字形态特征的量化判别,容易产生甲骨齿缝和兆纹的误分割现象.
面向甲骨拓片图像的分割需求,史小松等[18]提出一种基于稀疏活动轮廓模型的甲骨拓片分割算法.该方法以目标形状估计为约束,通过位置回归和共同勾画算法学习目标轮廓,进而利用距离约束的霍夫变换完成分割.史小松等[19]利用全局阈值法对甲骨拓片进行粗分割,再用数学形态学方法完成精细分割.然而,上述方法仅能在图像中分割出拓片区域和衬底区域,却无法实现甲骨文字的准确提取.
为了对甲骨拓片图像中的文字进行独立分割,研究人员通过结合拓片图像特点对典型图像分割方法进行了改进,大致提出了3类方法:基于阈值的甲骨拓片图像分割方法[20-23]、基于模糊聚类的甲骨拓片图像分割方法[24-26],以及基于深度学习的甲骨拓片图像分割方法[17,27-28].
1.2.1 基于阈值的甲骨拓片图像分割方法
基于阈值甲骨拓片图像分割方法的基本思想是在传统阈值分割基础上,引进数学形态学等运算对拓片图像中的点状噪声和非文字区域进行处理.Huang 等[20]采用中值滤波操作削弱拓片图像中的小面积点状噪声,进而以无参考的图像空间质量评估指标(blind/referenceless image spatial quality evaluator, BRISQUE)为引导,在红色通道上迭代优化形态学顶帽运算的结构元素半径以去除人工纹理,而后通过最大类间方差法完成二值分割.然而,红色通道对于甲骨拓片图像分割的适用性不强,BRISQUE 指标也未兼顾拓片图像的噪声分布特点,其对大面积固有纹理的处理效果不够理想.Shi 等[21]采用开运算估计背景区域,利用中值滤波去除点状噪声,进而在最大类间方差法的初始分割基础上,通过对连通域面积的阈值化操作提取甲骨文字区域.不过,该方法不仅无法处理背景粘连问题,而且还会产生对片状斑纹、盾纹和齿缝的误分割.Ma 等[22]利用遗传算法自适应地选取最佳全局阈值,进而结合中值滤波、均值滤波实现拓片图像分割.Ma等[23]利用最大类间方差法和开运算进行粗分割,进而将连通面积小于平均连通面积的连通区域填充为背景.总体来讲,该类方法尚不能充分发掘文字/非文字区域的形态学和拓扑结构特点,对于大面积的人工纹理和固有纹理的抑制作用仍然有限.
1.2.2 基于模糊聚类的甲骨拓片图像分割方法
基于模糊聚类甲骨拓片图像分割方法的基本思想是通过最大化所有像素与每个聚类中心的模糊隶属度,进而利用聚类中心将图像划分成多个子区域,实现甲骨拓片图像的分割.为克服传统基于模糊聚类的图像分割方法对噪声较为敏感的不足,何颖等[24]联合运用模糊C-均值(fuzzy c-means,FCM)聚类和基于小波变换的模极大值点检测完成甲骨文字的初始分割,进而以该结果为先验,提出了一种加权的模糊隶属度函数及基于模糊聚类的精细分割方法.但是,该方法的计算时间复杂度却较高.为了减少模糊聚类过程的迭代次数,潘振赣[25]兼顾考虑像素值的连续性和连通邻域内的像素分布一致性,在模糊隶属度函数中增加了反映灰度距离和空间距离的子项,从而降低由背景粘连所引起的分割不确定性.Huang等[26]在高斯平滑和自适应K-均值聚类的基础上,利用Bradley 方法将那些低于平均区域积分值的像素设置为背景,最后采用连通分量分析得到图像分割结果.尽管该类方法在隶属度函数和聚类过程中引进了连通域的约束,可是却未考量甲骨文字与干扰元素的连通域差异性,其分割质量还有较大的提升空间.
1.2.3 基于深度学习的甲骨拓片图像分割方法
基于深度学习甲骨拓片图像分割方法的基本思想是利用深层卷积神经网络建立所有像素到文字/非文字区域的非线性映射.Gao等[17]提出了一种以UNet++为骨干网的甲骨拓片图像分割网络,引进残差连接以提高网络对文字特征的表达能力,并利用双线性插值模块克服反卷积操作所导致的不均匀重叠现象.Liu等[27]提出了一种基于全卷积层的图像分割网络,采用21个卷积层、每层64个卷积核进行特征提取,并利用Softmax 层完成分割.Ge 等[28]将ResNet-50 和特征金字塔网络(feature pyramid network, FPN)相结合,把ResNet-50网络的第3~5层的输出特征作为FPN 的输入,再利用卷积层计算出2个更大尺度的特征图,进而采用共享头和掩膜分支获得图像分割结果.虽然深层神经网络能够更准确地提取文字/非文字区域的特征,但是该类方法仍无法有效地分割背景粘连的文字、去除与文字形态相似的齿缝、兆纹等干扰元素.
为了克服点状噪声、人工纹理和固有纹理的干扰,并从复杂背景中准确地分割出独立文字区域,提出一种连通区域拓扑结构约束的甲骨拓片图像分割方法,其基本思路是首先以超像素分割和最大类间方差法获得具有相似纹理、亮度特征的二值化结果,再以甲骨拓片轮廓为先验构建最小凸包,得到消除了背景粘连现象的封闭拓片区域及文字粗分割结果,最后利用形态学、连通区域拓扑结构和内部形状分析实现文字精细分割,去除拓片图像中的片状斑纹、兆纹、盾纹和齿缝.
图1(a)所示为《甲骨文合集》[29]收录的第1 093 号甲骨拓片图像.其中,除了卜辞文字以外,图像中还含有点状噪声(见黄色标识)、片状斑纹(见绿色标识)、固有纹理(见红色标识)及背景粘连(见蓝色标记).从图1(a)中可见,拓片图像的点状噪声、人工纹理、固有纹理、衬底背景均与甲骨文字前景具有相近的灰度值分布.在这种情况下,若忽略像素值的局部分布特性而直接采用传统的全局阈值进行分割,则既不能将甲骨文字从拓片衬底中分离,又无法将甲骨文字与干扰元素进行区别,甚至还会增强点状噪声的强度.鉴于此,采用基于简单线性迭代聚类的超像素方法(simple linear iterative clustering, SLIC),通过迭代地聚类分组将甲骨拓片图像分割成具有相似灰度值和光滑连通结构的子区域.在聚类过程中,为了兼顾考虑像素值的局部相关性和空间分布一致性,在距离度量函数中引进了像素点到聚类中心的空间欧氏距离和颜色欧式距离,从而有效地保留甲骨拓片图像的边缘和连通域特征,并提高后续阈值分割的效率.
图1 超像素分割前后的甲骨拓片图像Fig.1 Oracle bone rubbing image before and after the super-pixel segmentation
SLIC超像素分割的具体过程如下.
步骤1输入一幅大小为W×H的甲骨拓片图像I(x,y),将其颜色空间从RGB 转换为CIELab,并设置超像素的数量为K.
步骤2令,以S为采样步长将甲骨拓片图像划分成K个均匀网格,并将网格顶点作为初始聚类中心.
步骤3围绕每个初始聚类中心建立一个大小为3×3的窗口,并将窗口中具有最小梯度值的像素作为新的聚类中心.
步骤4对于第i个聚类中心Ci(1 ≤i≤K),以Ci为中心建立一个大小为2S×2S的窗口,计算该窗口中的每个像素Cj(1 ≤j≤2S×2S)到Ci的距离Di,j.计算式为
其中:(lC,aC,bC)表示聚类中心Ci在CIELab 颜色空间下的像素值;(lj,aj,bj)表示像素Cj在CIELab 颜色空间下的像素值;(xC,yC)表示聚类中心Ci的空间坐标;(xj,yj)表示像素Cj的空间坐标;M表示类内像素之间的最大颜色欧氏距离的估计值,一般设置为经验常数;、分别表示像素Cj与聚类中心Ci之间的颜色欧氏距离和空间欧氏距离.
步骤5计算甲骨拓片图像中任意一个像素p的聚类标签Lp,表达式为
其中:Di,p表示像素p到聚类中心Ci的距离.
步骤6对于每个聚类,利用该类中所有像素的颜色和空间坐标的平均值更新其聚类中心.
步骤7返回步骤4,循环直到收敛或达到最大迭代次数.
图1(b)给出了利用上述SLIC方法得到的超像素分割结果I′(x,y).从图1(b)中可见,除了在拓片破裂的开放区域外,超像素分割有效地定位到了甲骨拓片的外部轮廓,为提取拓片、去除衬底背景奠定了基础;同时,分割结果总体上以连通区域为主,将与其具有相似灰度值的像素划分到同一个超像素中.由于超像素分割结果具有较好的像素值分布的区域一致性,在此基础上,采用传统的最大类间方差法即可获得不错的阈值分割结果I″(x,y).图2所示为图1(a)的阈值分割结果,同时还给出了《甲骨文合集》的第238号、第911号甲骨拓片的分割结果.
图2 阈值化前后的甲骨拓片图像Fig.2 Thresholding results of oracle bone rubbing images
从图2 不难发现,得益于恰当的分割阈值,拓片图像中与背景灰度较为接近、较小面积的大量点状噪声已被有效抑制(见图2(a)~(c)的圆形标记),连通区域的边界更加明确;然而,由于甲骨在埋藏、出土过程中普遍存在疏松、粉化、残损现象,处于拓片轮廓附近的文字往往存在与衬底背景相互连通或粘连的情形,造成非闭合的连通区域.此时,现有方法(如文献[20-28]等)会不可避免地将这些文字判定为人工纹理或者固有纹理,导致误分割问题.因此,有效解决背景粘连情况下的文字分割对于提高甲骨拓片图像的分割质量尤为重要.
为了尽量避免背景粘连所导致的文字误分割,一种可行的思路是估计和重建甲骨拓片的残损外部轮廓,以产生闭合的拓片或文字区域.此时,一方面,利用闭合轮廓能够将甲骨拓片区域和衬底背景区域相互分离,从而解决甲骨文字与衬底背景具有相近灰度值、无法通过阈值化进行二值分割的问题;另一方面,借助闭合轮廓能使与背景相互粘连的文字形成闭合的连通区域,进而结合区域形态分析即可实现粘连文字的分割.当然,尽管残损拓片的外部轮廓往往具有复杂的碴口曲线,可是精确重建拓片轮廓既十分困难,又非必要,其精度不会影响文字分割的质量.鉴于此,采用最小凸包技术对甲骨拓片的外部轮廓进行估计,并进一步去除甲骨拓片的衬底背景.
首先,利用坎尼(Canny)算子对图像I″(x,y)进行边缘检测,得到边缘点的坐标集合Sedge.
其次,采用葛立恒扫描法(Graham’s Scan)[30]计算Sedge的最小凸包区域Ω.所谓“凸包”是指包含Sedge的最小凸集,可以简单地理解为把Sedge的最外层的点连接后形成的一个凸多边形,如图3(a)所示.因为Ω是包含图像I″(x,y)的所有像素的最小凸集,所以它所覆盖的区域不仅含有尽可能少的衬底背景像素,而且不会丢失原本属于甲骨文字的像素,从而最大程度地降低误分割的概率.从图3(a)可见,最小凸包区域已将拓片下部存在背景粘连的文字从其连通的背景中分离出来,形成了封闭的连通区域.
图3 基于最小凸包的粘连背景去除结果图Fig.3 Result of adhesive background removal based on the minimum convex hull
最后,假设ΩI表示甲骨拓片图像I″(x,y)的区域,ΩB表示衬底背景像素的区域,则有ΩB=ΩI-Ω,其中“-”表示集合的差运算.此时,将ΩB中包含的像素施加反色操作,进而对所得结果与Ω 进行集合的并运算,即可得到去除了粘连背景的粗分割结果ICoarse(x,y).
图3(b)给出了利用上述过程对第1 093号甲骨拓片图像进行处理后的结果.显然,除了拓片上部尚有小面积的残留背景外(见图3(b)中的圆形标识),其余的衬底背景区域已全部被有效地检测和去除.不过,最小凸包却不能去除拓片区域内的点状噪声、固有纹理等干扰元素.为此,进一步利用数学形态学和连通区域分析完成ICoarse(x,y)的精细分割.
虽然在粗分割结果ICoarse(x,y)中仍存在点状噪声、片状斑纹及残留背景等(见图3(b)),但是一方面,点状噪声、片状斑纹、盾纹、齿缝及残留背景的连通面积和截口长度均有别于甲骨文字;另一方面,甲骨文字区域的拓扑结构和内部形状也与点状噪声、片状斑纹、盾纹、齿缝、残留背景迥异.据此发现,本节将引进数学形态学分析不同区域的结构特征,采用欧拉数、方向投影变换分析各个连通区域的拓扑和内部形状特征,从而在有效抑制干扰元素的前提下,更加准确地实现甲骨拓片图像分割.
考虑到甲骨文字在连通区域的截口长度(即连通区域横断面的长度)小于片状斑纹、残留背景及大部分的盾纹、齿缝,利用形态学顶帽运算和半径为r的圆盘型结构元素对这些干扰元素进行判别和处理,得到初步求精结果I′Fine(x,y).顶帽运算主要分为两个步骤:开运算和代数减法运算.其中,粗分割结果ICoarse(x,y)经过形态学开运算后,图像中具有较大截口长度的片状斑纹、残留背景、盾纹等连通区域就会被提取出来,而代数减法运算则可进一步将这些大面积的连通域从图像ICoarse(x,y)中减除,实现去除干扰元素的目的.图4 给出了第1 093 号甲骨拓片图像经过开运算、顶帽运算后的结果,从图4 中可见,ICoarse(x,y)的片状斑纹、残留背景已被全部去除,图2(a)标记的与文字发生粘连的衬底背景也在未影响文字质量的前提下被去除.不过,此时的图像中仍残留一定数量的点状噪声,以及一部分与文字笔画的截口长度相近的人工纹理、固有纹理等非文字噪声(见图4(a)).
图4 大面积的干扰元素去除结果图Fig.4 Result of noise elements removal with large areas
由于甲骨文字是用刀笔按照一定的规范刻写到龟甲或兽骨上的,其笔画表现为具有一致截口长度的单连通区域,不同笔画之间形成了紧密的结构组合关系和较好的连通性,并进一步构成了具备一定连通面积、特定拓扑结构和内部形状的文字;同时,甲骨文字的间架呈矩形,接近方块字,其外接矩形的宽高比主要分布在[0.25,0.65]区间内[3].相比之下,点状噪声的连通区域面积明显小于甲骨文字,位置变化呈现松散的独立随机分布,并且缺乏规则的拓扑结构和内部形状;对于那些与文字笔画的截口长度相近的兆纹、盾纹、齿缝等元素,尽管其连通区域面积的分布区间与甲骨文字存在少量交集[31],可是外接矩形的宽和高往往不成正比,拓扑结构和内部形状较之甲骨文字也更加单一.
根据上述分析,首先对图像I′Fine(x,y)的全部8-连通区域进行标记,并根据文字及点状噪声的连通面积分布区间的统计先验[31],将连通面积小于Aconn(将该经验常数设置为50)的连通区域填充为背景,从而去除I′Fine(x,y)中离散分布的大量点状噪声,得到平滑图像I″Fine(x,y).图5 所示为图4(b)经该过程处理后的结果图.
图5 点状噪声的去除结果图Fig.5 Result of point-wise noise removal
从图5中可见,由于同一个甲骨文字的不同笔画相互连接和布局,因此形成的间架拓扑结构往往存在不等量的孔洞.例如,图5 标记的“王()”字含有1 个孔洞,“酉()”字则含有2 个孔洞;相反地,盾纹、齿缝、兆纹等非文字区域却鲜有形成规则的拓扑结构,一般仅有1 个连通区域且不存在孔洞.根据这一现象,采用轮廓层次分析法计算每个8-连通前景区域的欧拉数NEuler,将其作为判定文字/非文字区域的参考准则之一.对于一幅二值图像来讲,“欧拉数”是指在图像中会存在像素值为0的孔洞和像素值为1的连通区域,若将连通区域的数目Nregion减去孔洞的数目Nhole,则将所得结果称为该幅图像的欧拉数NEuler.例如,图5中“王”字的欧拉数等于0,“酉”字的欧拉数等于-1.根据欧拉数的定义,不难理解,因为非文字区域大多不包含孔洞,所以其欧拉数一般为一个定值1,而文字区域的欧拉数则有更大的取值范围.鉴于此,将欧拉数NEuler<TEuler的8-连通区域判定为甲骨文字区域.其中,TEuler是经验常数,将其设置为-1.
由于部分甲骨文字的拓扑结构也不含孔洞(如图5 中的“己()”字),其欧拉数与非文字区域的欧拉数均等于1,因此为了对欧拉数不小于TEuler,尤其是欧拉数等于1的8-连通区域进行有效判别,采用基于投影的区域内部变换分析法对拓片图像IF″ine(x,y)分别进行列投影和行投影变换,从而分析各个8-连通区域的内部形状特征.对于IF″ine(x,y)的某个8-连通区域Ωconn,假设其外接矩形的左上角坐标为(xTL,yTL),右下角坐标为(xRB,yRB),那么其行投影变换PH、列投影变换PV分别定义为
其中:PH(y)表示Ωconn在第y行的投影值,PV(x)表示Ωconn在第x列的投影值,Ωconn(x,y)表示Ωconn在坐标(x,y)处的像素值.不难理解,甲骨文字的笔画组合具有特定的间架结构,当连通区域的某一行存在横划时,那么行投影变换PH就会在该行产生1 个峰值;而当某一行只存在竖划时,那么行投影变换PH就会在该行产生1个谷值.同理,列投影变换在锲刻竖划、横划的位置也会产生类似的现象.相比之下,由于残留的盾纹、齿缝、兆纹等非文字区域只是缺乏间架结构和内部形状的全连通域,其行(列)投影变换的数值大多接近均匀分布,方差较小,这一点就与甲骨文字的行(列)投影变换形成了显著差异.直观起见,图6 以图5 中的“酉()”字及其左下部圆圈标识的固有纹理为例,给出了二者的行投影变换曲线和列投影变换曲线的对比图.从图6(a)可知,行投影变换的2 个峰值对应“酉”字的2 个横划,其间的1 个谷值反映了横划之间的竖划及孔洞;从图6(b)可知,列投影变换的2 个峰值对应“酉”字的2 个竖划,而其间的1 个谷值则反映了竖划之间的横划及孔洞;然而,固有纹理区域的行(列)投影变换的曲线分布却缺乏明显的峰值和谷值,尤其是该区域的纵向宽度较为一致,使得其列投影变换曲线的中部近乎均匀分布.为了进一步突出文字区域与非文字区域在投影变换分布方面的差异性,图7 给出了“酉”字及上述固有纹理的行(列)投影变换的方差曲线.显然,间架结构和内部形状的不同,使得文字区域与非文字区域的行(列)投影变换的方差产生了数量级上的差距.基于这个发现,对于某给定的8-连通区域,分别计算其行投影变换的方差VarH和列投影变换的方差VarV,并令Varconn←max{VarV,VarH},若Varconn≥Tvar,则将该8-连通区域判定为甲骨文字区域,其中,Tvar是经验常数,将其设置为150.
图6 甲骨文字与干扰元素的投影变换曲线对比Fig.6 Comparison of projection transform curves between oracle bone inscription and interfering element
图7 甲骨文字与干扰元素的投影变换的方差曲线对比Fig.7 Comparison of variance curves of projection transform between oracle bone inscription and interfering element
最后,考虑到极个别甲骨文字的间架结构、内部形态与兆纹、盾纹类似,如数字“一”“十”和天干地支“乙”“午”等字,为了保证欧拉数和投影变换的判定准确率,进一步利用外接矩形的宽高比的统计先验[3]进行判别.对于某给定的8-连通区域,若其NEuler≥TEuler且Varconn<Tvar,则计算其外接矩形的长宽比R,此时,若R满足TRmin≤R≤TRmax,则将该8-连通区域判定为甲骨文字区域,否则将其判定为干扰元素区域,进而获得最终的分割结果图像IFine(x,y).这里,TRmin和TRmax均为经验常数.
在第2节和第3节的基础上,本节给出连通区域拓扑结构约束的甲骨拓片图像分割方法的具体流程,如图8所示.
图8 甲骨拓片图像分割方法的具体流程Fig.8 Specific process of the proposed segmentation method for oracle bone rubbing images
为验证方法的有效性,从《甲骨文合集》中选取了3 000张甲骨拓片并制作了甲骨拓片图像数据集,从主观视觉效果和客观评价2个方面进行实验,并将结果与面向甲骨文字的连通域分割方法(ORSMCD)[21]、基于形态学的拓片图像阈值分割方法(TSM)[23]、基于超像素的C-均值聚类分割方法(SF-FCM)[14]、基于果蝇优化算法的阈值分割方法(FOA-Otsu)[5]、多粒度多层马尔可夫随机场的分割方法(MMLMRF)[32]和基于UNet的多模态分割方法(MultiResUNet)[16]进行比较.
实验的硬件环境为Intel (R) Core (TM) i7-4790 CPU@3.60 GHz,16.0 GB RAM,操作系统为64 位Windows 10专业版,编程平台为Matlab R2018a.
在视觉上,点状噪声、人工纹理、固有纹理等干扰元素对甲骨拓片图像的影响主要体现为混淆甲骨文字的内在特征,降低文字的完整性和清晰度,进而导致其难以被准确地分割.选取了含有不同强度的干扰元素的5 类甲骨拓片图像进行实验:1)图像背景简单,噪声较少,文字清楚,如图9(a)所示的《甲骨文合集》第367 号甲骨拓片;2)图像背景简单,含有大量点状噪声,如图10(a)所示的《甲骨文合集》第1 294 号甲骨拓片;3)图像背景复杂,拓片中含有大面积的粘连噪声,如图11(a)所示的《甲骨文合集》第358号甲骨拓片;4)图像背景复杂,拓片中含有大量的点状噪声、盾纹、齿缝等干扰元素和大面积的背景粘连,如图12(a)所示的《甲骨文合集》第891 号甲骨拓片;5)图像背景简单,但是拓片中含有贯穿整片甲骨的盾纹、多处背景粘连及干扰性较强的2 处片状斑纹,文字边缘还存在一定模糊现象,如图13(a)所示的《甲骨文合集》第911号甲骨拓片.
图9 不同方法对第367号甲骨拓片图像的分割结果Fig.9 Segmentation results of different methods for the oracle bone rubbing image with No.367
图10 不同方法对第1 294号甲骨拓片图像的分割结果Fig.10 Segmentation results of different methods for the oracle bone rubbing image with No.1 294
图11 不同方法对第358号甲骨拓片图像的分割结果Fig.11 Segmentation results of different methods for the oracle bone rubbing image with No.358
图12 不同方法对第891号甲骨拓片图像的分割结果Fig.12 Segmentation results of different methods for the oracle bone rubbing image with No.891
图13 不同方法对第911号甲骨拓片图像的分割结果Fig.13 Segmentation results of different methods for the oracle bone rubbing image with No.911
从图9~13可见:
1)在较高的灰度对比度情况下,SF-FCM 方法对点状噪声具有一定抵抗能力,能取得初步的分割结果,但是其漏分割率偏高(图11(d));在对比度偏低时,该方法的性能却会受到明显影响,甚至无法给出有效的分割结果(图10(d)).而且,基于直方图的模糊隶属度函数的稳健性不足,仍然不能克服相近灰度值的干扰元素对文字分割的影响,导致SF-FCM 方法无法有效处理盾纹(图13(d))、衬底背景粘连(图12(d))等情形.
2)FOA-Otsu 方法利用果蝇优化算法计算全局阈值,但是该方法既忽略了拓片衬底与文字具有相近的亮度,又缺少有效抑制噪声干扰的方法,导致单一的阈值不可避免地产生大量的衬底背景(图11(b))、点状噪声(图10(b))、盾纹(图12(b))、片状斑纹(图13(b))的误分割现象.
3)ORSMCD 方法采用数学形态学估计拓片背景,利用中值滤波抑制点状噪声,并通过连通域面积的阈值化操作在一定程度上抵抗盾纹、齿缝的影响,取得了不错的分割结果.然而,该方法对衬底背景粘连的处理能力仍有不足(图11(e)),其阈值化操作无法有效去除大面积的盾纹区域(图13(e)),并且片状斑纹也存在误分割的可能(图13(e)).
4)TSM 方法利用形态学运算及小面积连通区域的填充运算,较之ORSMCD 方法更加有效地去除了点状噪声、大面积盾纹,但是由于该方法仅将连通区域的平均面积作为文字区域的判定标准,却缺乏关于甲骨文字形态特征的必要考量,容易将较小面积的笔画误判为噪声(如图9(f)左上方的“二”字是被误分割的结果,正确结果应该为“三”),而将稍大面积的人工纹理误判为文字笔画(图10(f));同时,不能完全去除背景粘连(图11(f))和大面积的盾纹(图13(f)).
5)MMLMRF方法建立了像素粒度的概率图和目标粒度的概率图,进而构建多层次的马尔可夫随机场模型,能够对拓片图像的点状噪声分布、连通区域分布进行有效的表示,表现出较强的点状噪声抑制能力,能够获得清晰的文字分割结果.不过,该方法的概率分布是建立在像素值基础上的,缺乏对目标形态先验的度量,因此无法处理与文字具有相近灰度的衬底背景、盾纹、片状斑纹等干扰元素,如图11(c)和图12(c).此外,该方法在分割过程中会损失一部分文字边缘,使得细化后的甲骨文字可能出现轻微的笔画断裂.
6)MultiResUNet 方法引进不同尺寸的卷积核并增加直连边,设计了一种多尺度残差块结构,进而利用该结构替代传统UNet网络的卷积层序列,增强了神经网络的多尺度信息表示能力,保证该方法对于点状噪声、盾纹、衬底背景均有一定的抑制能力,总体上取得了不错的分割结果.然而,该方法会扩大原本的文字区域,导致其分割结果可能损失文字的间架结构,甚至使文字内部出现失去孔洞结构的全连通域(图10(g)).此外,MultiResUNet方法无法有效去除分布在文字周围的点状噪声,在一定情况下,其分割后的甲骨文字仍可能被噪声污染而难以辨认(图12(g)).
7)本文方法将超像素和阈值法相结合,根据局部区域的像素分布获得了更加准确的阈值化结果,进而通过外接矩形、欧拉数和投影变换对甲骨文字及干扰元素的面积分布、形态先验特征进行统计建模,取得了有效的分割结果.如图9(h)~图13(h)所示,本文方法不仅能去除不同强度的点状噪声,而且对拓片开放区域的背景粘连、片状斑纹及盾纹均有明显的抑制能力,很好地保持了甲骨文字的原始笔画和字形.
为了进一步评价方法的分割性能,在含有3 000张甲骨拓片图像的数据集上进行了实验,并采用正确分割率(ACC)、敏感度(SE)、特异度(SP)作为分割结果的客观度量指标,其定义分别为
其中:TP表示甲骨文字区域被正确分割的像素数;TN 表示非文字区域被正确分割的像素数,FP表示非文字区域被误分割的像素数;FN表示甲骨文字区域被误分割的像素数.
表1 总结了方法与其他7种对比方法在甲骨拓片图像数据集上的客观性能评价结果.从表1可知,未考虑甲骨文字先验知识的方法,如FOA-Otsu、MMLMRF 和SF-FCM,对甲骨拓片图像的干扰元素非常敏感,其最高的正确分割率仅为80.01%;MultiResUNet方法经过网络训练后,对点状噪声、盾纹、衬底背景均有一定的抑制能力,正确分割率为91.72%;针对甲骨拓片图像的特点,ORSMCD 方法和TSM 方法采用数学形态学和连通区域面积分析进行处理,其最高的正确分割率达到了93.84%;方法在面积分布、形态先验的基础上,利用连通区域的拓扑结构和内部形状分析对甲骨文字进行分割,取得了更高的正确分割率,比7种对比方法中正确分割率最高的TSM 方法进一步提高了2.03%,达到了95.87%.在敏感度方面,SF-FCM方法对图像对比度和点状噪声的稳健性差,甚至在一定条件下无法给出甲骨文字的有效分割,其敏感度仅为65.6%;MMLMRF 方法在分割过程中往往会损失一部分笔画的边缘信息,其敏感度也偏低,平均为70.23%;TSM方法对于连通区域面积的判别不够准确,容易将较小面积的笔画误判为拓片背景,以致在一定程度上影响了分割性能,其敏感度为90.05%;FOA-Otsu方法、ORSMCD 方法和MultiResUNet方法对甲骨文字分割的敏感度大致相当,最高达到了92.98%,而本文方法则进一步较其提高了0.23%,达到了93.21%.在特异度方面,FOA-Otsu 方法、MMLMRF 方法、SF-FCM 方法均无法克服拓片衬底背景、大面积背景粘连等因素的影响,其特异度最大仅有80.56%;MultiResUNet方法会扩大原本的文字区域,将其周围邻域内的背景像素误分割为甲骨文字,其特异度为91.66%;尽管ORSMCD方法和TSM方法能够克服拓片衬底背景的干扰,可是无法完全抑制大面积背景粘连,仍明显存在对背景像素的误分割,其特异度最高为94.56%;所提出方法通过建立文字/非文字区域的形态学先验和连通区域的拓扑结构约束,增强了分割过程对于各类干扰元素的稳健性,其特异度达到了96.10%,较之特异度最高的TSM方法提高了1.54%.
表1 不同方法的甲骨拓片图像分割结果的客观评价比较Tab.1 Objective evaluation comparison of the segmentation results of oracle bone rubbing images by different methods (单位: %)
综合主观评价和客观评价的比较结果可见,对于包含大量点状噪声、人工纹理和固有纹理的甲骨拓片图像,本文方法的整体分割性能优于其他7种代表性的对比方法,有效克服了现有方法无法处理大面积背景粘连、衬底背景、盾纹等干扰的问题,提高了甲骨文字的分割精度.
为了克服点状噪声、片状斑纹、兆纹、盾纹、齿缝等元素对甲骨拓片图像分割的影响,先以甲骨拓片的外部轮廓构建最小凸包,再以连通区域的拓扑结构和内部形状特征建立甲骨文字区域和非文字区域的形态学先验,进而提出了一种连通区域拓扑结构约束的甲骨拓片图像分割方法.其优点在于,最小凸包解决了断裂文字与衬底背景的粘连现象及其误分割,形态学先验则有效避免了片状斑纹、盾纹、齿缝的影响,从而增强了分割过程对拓片干扰元素的稳健性,提高了甲骨文字分割的主观视觉质量和客观性能.实验结果验证了所提出方法的有效性以及在甲骨拓片图像分割过程中引进形态学先验的必要性.
另外,所提出方法仍有可臻完善之处,例如,当甲骨文字与盾纹、齿缝或背景存在细小连通边时的有效分割等,将在今后的工作中进一步深入研究相关问题的解决思路.