古籍书影中钤印提取技术的探讨

2017-06-29 12:00:34葛怀东
计算机应用与软件 2017年5期
关键词:钤印印章古籍

葛怀东 尚 弘

1(金陵科技学院人文学院 江苏 南京 210038)2(富士通研究开发中心有限公司 北京 100025)

古籍书影中钤印提取技术的探讨

葛怀东1尚 弘2

1(金陵科技学院人文学院 江苏 南京 210038)2(富士通研究开发中心有限公司 北京 100025)

藏书钤印是古籍在流传过程中所钤盖的收藏印记,具有深蕴的文化内涵和艺术鉴赏价值,因此一直是古籍研究方面的重点。介绍一种基于HSV颜色空间的古籍钤印提取算法,通过该算法自动从古籍数字影像中提取印章图像。该算法包含了自适应设计,可用于不同质量的古籍文档图像的印章提取工作。同时,该方法通过颜色空间的投影分析可以有效去除正文对印章像素点所造成的干扰,从而生成清晰的印章图像。通过对200多张籍影像中的620枚印章的提取实验表明,该印章提取算法具有较好的提取效果,印章图像的召回率达到93.4%,准确率达到83.4%。

古籍 藏书钤印 颜色空间 图像提取

0 引 言

卷帙浩繁的古典文献是我们祖国宝贵文化遗产的重要组成部分,同时也因其不可再生而弥足珍贵。为了解现存古籍的保护状况,我国于2007年启动“中华古籍保护计划”[1]。其中,古籍普查是“中华古籍保护计划”的重要内容,是对我国现存古籍的总盘点,也是抢救、保护与利用古籍的重要环节,并为“中华古籍联合目录”及“中华古籍综合信息数据库”的建设提供数据准备,从而促进对古籍资源的利用[2]。

古籍钤印(也称印章)是构成版本信息的重要元素,在古籍普查中有专门的钤印表著录古籍在递藏过程中所钤盖的印章信息,包括印章释文、所有者朝代、所有者姓名、印文类型、印章形状等[3]。同时,这些藏书钤印形制各异,又能展现篆刻艺术之美,可以聚合为极具中国特色的文化元素。因而,在古籍数字资源库开发过程中,古籍钤印及释文也应成为可检索的本体对象,以提供对版本源流、藏书文化研究的支撑。本文介绍了一种从古籍书影中自动提取印章图像的方法,该方法采用分级结构,利用颜色信息找到候选的印章位置,然后通过形状信息提取印章图像。

1 古籍钤印自动提取方法概述

在我国传统文化中,往藏书上钤印的风尚相习久远,且印文丰富、形制各异,至明清两代最为盛行。钤印一般包括名家印、名号印、书斋印、书室印、堂印、闲章等等五花八门的篆字草书,形状有长方形、正方形、椭圆形、圆形等。这些印章不仅能体现古籍的历史归属,提升古籍价值,还能为古籍版本鉴定提供重要依据,也是文人雅士鉴赏的艺术品[4]。当前,在大力推进古籍数据化建设的阶段,应着眼于古籍数字资源的增值性开发,挖掘古文献中极具中国文化元素——“钤印”,为古籍信息资源的再利用提供新视角。

传统的印章提取方法是通过Photoshop等图像处理软件,即人工在古籍书影图像中选择印章的区域并切分提取。该方法需要花费大量的人工,效率低下。同时,也无法处理复杂背景对印章内容的干扰。目前,一些学者也提出了相关古籍印章提取的算法,但是这些算法存在如下缺陷:① 对印章形状做出了假设,只能检测圆形、椭圆形或矩形形状的印章[5];② 适用的图像背景相对简单[6],对于复杂背景下或图像质量退化严重的图像不适用。因此,传统的印章自动提取算法并不能很好的胜任古文献中的印章提取工作。

针对这种情况,本文提出了一种针对古籍书影中红色钤印的自动提取算法。该方法基于HSV颜色空间,对原始图像进行自适应的红色连通分量提取,针对这些连通分量进行降噪、合并及筛除,得到候选印章的位置。同时针对印章和正文内容重叠这一普遍现象,利用前景和背景颜色分离的算法,通过颜色空间的投影分析可以有效去除正文对印章像素点所造成的干扰,有效地生成标准的印章图像。

相对于传统方法,本方法具有如下优势:

(1) 整个印章提取工作可自动完成;(2) 支持不同形状印章的提取;(3) 参数自适应,可以适应复杂背景下的印章提取;(4) 可以去除印章图像上的无关背景(如墨迹等);(5) 具有较高的提取召回率及精度等。

2 古籍钤印自动提取方法概述

钤印自动提取算法的流程如图 1所示,以包含红色印章的古籍书影图像为输入,算法可自动从输入图像中提取印章并针对印章进行去噪。

图1 基于颜色的印章提取流程图

钤印自动提取算法的主要步骤如下:

1) HSV颜色空间转换

通常情况下,同一种颜色可以通过不同的颜色空间来表述。用于表达颜色的颜色空间有很多种,其中RGB颜色空间是最为常用的一种颜色空间。该空间是一种依赖于显示设备的颜色空间,其通过红、绿、蓝三个颜色通道的亮度叠加来表述特定的颜色,因此RGB颜色空间对物体的亮度比较敏感,同一物体在受到不同强度的光照时,其对应到RGB颜色空间的颜色分量差异是比较大的。由于中国古籍文档的纸张、油墨存在着不同情况的退化,因此人眼认为同样是红色的两枚印章,其颜色对应到RGB颜色空间上的距离会相差甚远,不利于红色印章的自动提取。相比RGB颜色空间,HSV颜色空间则更符合人眼判断颜色的规律。HSV颜色空间通过色度H、饱和度S及亮度V三个分量来对人眼颜色感知过程进行更精准的描述[7]。当同一物体受到不同强度的光照时,其对应到HSV颜色空间的H通道变化较小,因此更适用于中国古籍文档图像的印章提取。

2) 红色像素提取

钤在中国古籍文档中的印章绝大多数是红色的。因此,文档图像中的红色像素是本文关注的主体。根据古代印章在中国古籍文档中多呈红色或暗红色的特点,前景红色像素在HSV空间下需满足以下情况:

H(x,y)∈[0°,30°]∪[330°,360°]
S(x,y)∈[0,0.35]
V(x,y)∈[0,1]

(1)

其中,H、S、V分别表示HSV颜色空间的三个颜色分量。基于HSV颜色空间对古籍文档图像进行处理,筛选出所有满足上述要求的红色像素,如图 2-图 5所示。

图2 原始古籍文档图像1

图3 原始古籍文档图像2

图4 HSV空间下提取红色像素图4

图5 HSV空间下提取红色像素

可以看到,古籍文档图像中,由于印章区域包含大量红色像素,因此属于印章区域的像素被完整地提取出来。但是由于文档本身退化严重,图像整体偏暗红色,使得一些背景像素也被提取出来,与此同时,图像中有一些红色非印章区域(如边框等),也被当作前景提取了出来。因此,本文下一节将通过自适应连通分量提取的方式来实现印章前景像素和背景像素的分离。

3) 自适应连通分量提取

在古籍文档图像中,绝大多数印章都是整幅图像中红色特征最明显的区域,在这些区域中,其H分量是最接近0°或360°的。因此,对于纸张退化所引起的暗红色背景噪声,可以通过缩短式(2)中H分量的阈值区间来消除,但如何确定区间参数是能否提取印章的关键。如果该阈值区间过窄,图中符合阈值要求的像素过少,无法有效提取印章。反之,如果阈值区间过宽,印章被淹没在背景噪声中,增加印章提取的难度。只有当阈值区间合理时,印章像素才会被完整的提取出来。

针对这样的情况,本文采用自适应连通分量提取算法[9]。首先对步骤2)中所提取的红色像素进行8-领域连通分量标记,得到古籍文档图像的红色连通分量,从而确定古籍文档图像的红色连通分量数量总和NCC和面积总和ACC。对于绝大多数古籍文档图像,印章区域所占的比例一般不会超过图像的30%,因此,在针对文档图像进行连通分量提取时,如果阈值区间合理,所得到的NCC和ACC不会过高,当NCC过高时,说明图像中有大量的小面积连通分量,即如图4所示的红色噪点;当ACC过高时,说明图像中有大片粘连的连通分量。

为了更精确地衡量图像中的红色连通分量占图像的整体比例,分别定义单位面积连通数PN和单位面积连通比例PA,如下式:

(2)

阈值区间设置过宽都会导致PN或PA的升高。为了更好地说明印章提取状况与PN、PA的关系,本文对150余幅古籍文档图像样本分别进行了H∈[0°,30°]的阈值提取连通分量,按照噪声连通分量面积、印章连通分量面积等因素将印章提取情况分为5种类型,即印章区域被滤除、过渡区域1、印章区域完整提取、过渡区域2和图像噪声过多。图 6和图 7分别给出了阈值区间、PN、PA以及印章提取状况的关系。

图6 随H阈值变化曲线

图7 随H阈值变化曲线

从图中可以看到,对图像样本集进行初始阈值为30°的连通分量提取时,印章区域基本被淹没在噪声中,无法有效提取印章,当阈值不断降低时,PN、PA的取值随之降低,当PN、PA分别降至2.3e-3和5.0e-3左右时,印章恰好被完整提取,当PN、PA的取值低于1.5e-3和3.0e-3时,印章区域则被逐渐滤除。

针对这样的实验结果,本文提出了自适应连通分量提取算法。首先用一个较为宽松的阈值对图像进行连通分量提取,计算PN、PA取值,如果PN、PA、过高,则降低取值,使得阈值更加严格,再次对图像进行连通分量提取及计算PN、PA,直至PN、PA的取值满足一定阈值TN和TA要求后,所得到的阈值H即为该图像印章提取的最佳阈值。整个算法可以用如图8流程图描述。

图8 自适应连通分量提取算法流程图

图9描述了红色连通分量自适应提取的直观过程。

图9 红色连通分量自适应提取过程

4) 形态学去噪

此时图像中存在一些孤立的红色噪点,这些噪点将会影响后期的印章提取,因此需要通过形态学的方法将这些噪点去掉[10]。首先对图像进行开操作,滤除掉除印章之外的独立噪点,然后对图像进行闭操作,填充印章区域的一些空洞,从而得到完整干净的印章区域,如图 10-图 12所示。

图10 带有噪声和空洞的印章图像

图11 开变换去除独立噪点

图12 闭变换填充空洞

5) 矩形合并

对连通分量进行形态学去噪后,由于印章的多样性和图像质量等因素,同一枚印章可能会包含多个连通分量,为了准确提取出属于同一枚印章的连通分量,需要对这些连通分量进行合并。

对于中国传统印章,无论是矩形印、椭形印还是不规则肖形印,其所在区域均可以用矩形来描述。而根据中国古籍钤印传统,两枚印章钤在纸张时不会出现重叠区域,因此,两枚印章分别包含的连通分量的所在矩形不会存在交集,如果两个连通分量所在矩形存在交集,则可以判定这两个连通分量属于同一枚印章,可以进行合并,如图 13所示。

图13 印章连通分量所属矩形

针对上述情况,可通过以下算法进行连通分量矩形合并,从而确定每一枚印章在图像中的准确位置:计算图中每一个连通分量所在的矩形,如果两个连通分量所在的矩形存在交集,则对这两个矩形进行合并,重复该过程,直至图中没有存在交集的连通分量[11]。最终的合并结果即为每一个印章的准确位置。如图14所示。

图14 印章连通分量的矩形合并

6) 印章判别

获取印章所在矩形后,将矩形内的图像裁剪出来,得到原始印章图像。但有些古籍文档存在一些大面积的红色背景,这些红色背景通过前面描述的算法无法有效筛除,如图15所示。

图15 基于CNN的非印章图像剔除

为了进一步提高印章提取算法的精度,本文针对印章和非印章图像设计了分类器,通过机器学习的方法对上述算法提取出的候选图像进行判别,从而提出非印章图像。本文所采用的分类器为卷积神经网络(CNN),网络结构设计如图16所示。

图16 CNN网络结构示意图

网络由输入层、三个卷积层以及全连接层构成,输入图像为归一化到256×256的彩色待分类的印章/非印章图像,全连接层的输出为分类结果。整个网络通过标注好的10 000张印章图像和10 000张非印章图像样本进行训练,在训练集和测试集上的分类精度分别为97.3%和96.2%。本文通过上述网络对待候选的图像进行分类,剔除非印章图像,提高算法的提取精度。

7) 印章背景去除

原始印章图像通常存在黑色墨迹等背景,这些背景影响印章图像的欣赏、分析价值,需去除。本文利用颜色分离算法,通过颜色聚类分析获得印章像素点、背景像素点和正文像素点的初始聚类颜色[12],利用mean shift算法得到三类像素点的准确的颜色中心。通过颜色空间的投影分析,有效地去除背景(如黑色墨迹、表格线、碑文等物体)对印章像素点所造成的干扰,有效地生成标准的印章图像。如图17、图18所示。

3 古籍钤印自动提取技术的实验结果和分析

基于上述方法,分别对两个包含大量钤印的古籍文档扫描图像样本集进行测试。样本集1为年代相对较近的古籍扫描影像,包含49张古籍影像,共计66枚印章,印章质量较好;样本集2中的古籍年代相对久远,共计157张古籍影像,其中包含印章554枚,部分影像背景复杂,印章质量较差。分别对两个样本集进行印章提取,得到如表1所示的结果。

表1 两个样本集的印章提取评价

图19分别给出了样本集1和2的一些印章提取结果。

图19 (a)、(b)、(c)样本集1的部分印章提取结果(d)、(e)、(f)样本集2的部分印章提取结果

从图19中可知,由于提取算法针对古籍钤印的特点,充分地利用了图像的颜色信息,使得算法可以适用于阴刻印、阳刻印、矩形印、圆形印、甚至是不规则的肖形印(如图19(c)、图19(e))等不同形式的印章,相比基于形状分析的算法而言,具有更高的鲁棒性。此外,对比样本集1和样本集2可以发现,由于算法在提取红色连通分量过程中采用了自适应的设计,因此无论是针对背景简单、均一、印章质量较好的样本集1,还是针对具有复杂背景(墨迹、碑文、表格线等)、印章退化严重、纸张颜色变化较大的样本集2,本文提出的算法均具有较高的召回率和精度。

在样本集2的部分样本中,由于图像背景相对复杂,导致部分假目标被当作印章提取出来,因此算法的精度有所下降。图 20中给出了一些比较典型的误检测案例。其中,古籍中间部分的钤印过于密集,导致算法在进行矩形合并时出现了“过合并”的现象,导致其提取结果是附近所有印章的集合。针对这种典型错误,本文在开发印章提取软件的过程中为用户提供人机交互接口,用户可以通过接口手动添加、删除印章,通过人工的方式达到100%的召回率和准确率。

图20 印章提取算法典型错误

4 结 语

本文针对古籍中钤印图像的特点提出了基于颜色的印章分离算法。该算法基于HSV颜色空间,对图像中的红色连通分量进行自适应的提取与矩形合并,进而提取出印章区域,得到印章图像。同时,为了进一步增强印章图像的分析、欣赏价值,本文对提取出来的印章图像进行了基于颜色分离算法的背景去除,通过该算法去掉了印章图像中的墨迹等无关背景,最终得到清晰干净的印章图像。

本文所提出的算法召回率和准确率能够分别达到93.4%和83.4%,对于具有复杂背景的古籍册页扫描影像的印章提取中表现出良好的鲁棒性,在古籍整理、古籍特色数字资源开发、 钤印影像采集及出版等领域中具有良好的应用前景。

[1] 徐涟.中华古籍保护计划启动[N].中国文化报,2007-3-1(1).

[2] 江水.全国古籍保护工作会议在京召开[N].新华书目报,2014-10-17(1).

[3] 乔敏,张华艳.古籍普查中版本鉴定新思路[J].图书馆理论与实践,2012(2):110-112.

[4] 张宝珠.古籍藏书印刍议[J].图书馆学刊,2008,30(5):128-129.

[5] Roy P P, Pal U, Lladós J. Seal detection and recognition: An approach for document indexing[C]// Document Analysis and Recognition, 2009. ICDAR ’09. 10th International Conference on. IEEE, 2009:101-105.

[6] Frejlichowski D, Forczmański P. General Shape Analysis Applied to Stamps Retrieval from Scanned Documents[M]// Artificial Intelligence: Methodology, Systems, and Applications. Springer Berlin Heidelberg, 2010:251-260.

[7] 张永库,李云峰,孙劲光.基于改进颜色聚合向量与贡献度聚类的图像检索算法[J].计算机科学,2015,42(2):311-315.

[8] 王文强,叶宇煌.基于HSV颜色空间的图像检索系统[J].信息通信,2014(2):82-83.

[9] 姚金良,翁璐斌,王小华.一种基于连通分量的文本区域定位方法[J].模式识别与人工智能,2012,25(2):325-331.

[10] 鄢煜尘,周前进,段柳云,等.形态学重度污染文本图像去噪处理[J].武汉大学学报(信息科学版),2012,37(9):1100-1103.

[11] 付芦静,钱军浩,钟云飞.基于汉字连通分量的印刷图像版面分割方法[J].计算机工程与应用,2015,51(5):178-182.

[12] Zheng D, Sun J, Naoi S, et al. Separation of overlapped color planes for document images[C]// Image Processing (ICIP), 2010 17th IEEE International Conference on. IEEE, 2010: 1949-1952.

DISCUSSION ON THE EXTRACTION OF SEAL PRINTS IN ANCIENT DOCUMENT IMAGES

Ge Huaidong1Shang Hong2

1(SchoolofHumanities,JinlingInstituteofTechnology,Nanjing210038,Jiangsu,China)2(FUJITSUR&DCenter,Beijing100025,China)

Seal prints is the collection mark of ancient documents in the process of spreading, with deep cultural connotation and appreciation of the value of art, have been the focus of ancient documents research. This paper introduces an HSV color space based algorithm for ancient seal extraction.The algorithm can automatically extract the seal image from the ancient digital images, and can be used for different quality of ancient documents image of the seal extraction work. At the same time, the method can effectively remove the interference caused by the text to the seal pixel by projection analysis of the color space, and thus produce a clear seal image. The extraction of 620 stamps from more than 200 images shows that the seal extraction algorithm has a good extraction effect, the recall rate of stamp images is 93.4%, and the accuracy rate is 83.4%.

Ancient documents Seal prints Color space Image extraction

2016-04-16。江苏省教育厅2014年度高校哲学社会科学研究基金指导项目(2014SJD214)。葛怀东,副教授,主研领域:古籍数字化,中文信息处理。尚弘,硕士。

TP391

A

10.3969/j.issn.1000-386x.2017.05.033

猜你喜欢
钤印印章古籍
我终于有了自己的印章
我们有印章咯
大灰狼画报(2022年4期)2022-06-05 07:13:16
中医古籍“疒”部俗字考辨举隅
关于版本学的问答——《古籍善本》修订重版说明
天一阁文丛(2020年0期)2020-11-05 08:28:06
夏昶作品欣赏
文化产业(2020年21期)2020-09-24 08:59:42
担当
中国书画(2020年10期)2020-03-09 06:27:44
关于古籍保护人才培养的若干思考
天一阁文丛(2018年0期)2018-11-29 07:48:08
我是古籍修复师
金桥(2017年5期)2017-07-05 08:14:41
自制橡皮印章
童话世界(2017年14期)2017-06-05 09:13:49
清 李觶 花草虫鸟册页
收藏与投资(2017年4期)2017-05-30 05:19:17