袁小艳
(四川文理学院智能制造学院,四川达州 635000)
巴文化是我国古代西南地区在其长达千余年的历史和演进中,形成的一支重要地域性文化,其在当时具有“巴人故里”之称的达州更是深入人心,广为流传。随着互联网的普及和发展,巴文化遗产的数字化保护也逐步进入大家的视线,在巴文化遗产的数字化保护过程中,各种陶器、青铜器、图腾、服装等大量涌现,这些数以万计的图像和信息需要采用先进的数字技术作为辅助的手段来对其进行图像识别和类型划分,从而为巴文化遗产的后续三维展示、虚拟化传播等工作提供分析和支撑基础,以推动巴国文化遗产的数字化保护。
图像显著性检测作为图像识别的重要组成部分,可以让人们通过颜色、纹理、形状、空间等关系快速、准确地定位目标,即显著性区域,它在巴文化图像数据的解读、图像数据的分析和巴文化图像数据的应用方面有着十分广泛的应用前景。文中对巴文化图像的显著性检测进行了研究。
在面对某个场景时,人们会自动地对感兴趣区域进行处理,却选择性地忽略不感兴趣的区域,这些感兴趣的区域被称作显著性区域[1]。图像的显著性检测,就是通过智能化的算法来模拟一个人的视觉特点,提取出图像的显著性区域[2]。由于人的视觉系统就是从不同的角度反映所接收的信息,所以在视觉中所观察得到的每一种特征都是不同角度的体现。因此在显著性检测过程中,可以从事物的不同特征等方面进行检测,如颜色、纹理、形状等。
视觉心理学的许多研究成果表明,颜色是视觉注意阶段的基本特征。图像分析的基础是就是利用颜色空间进行颜色的选择,常用的颜色空间有HSV、CIEXYZ、CIELuv 和CIELab 等。不同的颜色空间在颜色特征分析时需要进行相互转换,大多工作都偏向于使用CIELab 颜色模型。纹理通常认为是物体表面某种颜色改变或某种分布运动规律的变化,比如斑马或者老虎身上的条纹,这种规律具有一定的重复特征、均匀特征和方向特征。物体与图像背景区域边界的相互结合处称为物体轮廓,而这种轮廓特征是一个物体除了色彩特征外较为重要的一种特征,还有一种说法认为这是物体的形状特征。在显著性检测技术的研究发展过程中,为了更好地准确描述物体的轮廓特点,研究者们还通过计算面积、矩形度、圆角度、不变量矩等特征来准确地表现物体的轮廓。近年来,出现了许多用于检测物体轮廓的方法,如Sobel 算子、Robert 算子、Canny 算子等。
对于川东地区而言,特别是达州市,巴文化本身就是最佳的历史文化产业和品牌,它极大地丰富了达州这座城市的文化内涵,使其逐步发展成为一个拥有丰厚历史和深沉文化底蕴的城市。巴文化早已在达州深入人心,广泛传播,其已经逐渐发展成为了达州市的一种文化符号和象征[3]。达州发展巴文化,图像数据不可或缺,当然对巴文化图像显著性检测的研究更需要加大力度。
为了深入探究达州市巴文化图像显著性检测的现状,对被调查人员采取了一种不记名的随机调查模式,在充分保证被调查人员有正常认知和理解能力的前提下,不再限制被调查人员的年龄、性别及职业。调研工作全过程做到实事求是,确保了调研内容的准确和真实。这次主题问卷调查共向广大市民朋友发放了1 000 份有效的调查问卷(612 份纸质版,388 份电子版),经过严格筛选,有效调查问卷共982份,其中纸质版602 份,电子版380 份,回收率为98.2%,具体见表1 所示。
表1 调查问卷的发放和回收情况
1)巴文化图像内容及获取途径。调查结果显示,众多受调查者日常生活中常常见到的巴文化内容有巴文化石刻、陶器和图腾、符号等,如表2 所示。
表2 日常关注的巴文化图像内容情况
另外,从调查的资料数据中也可以清楚地得出,博物馆和巴文化景观已经逐步发展为人们收集和获取巴文化资源信息最主要的途径,远远超出了我国电视、广播和报纸、刊物等其他的传统媒体,如表3所示。
表3 获取巴文化图像的途径情况
2)对巴文化图像的认知情况。从被调查人员对巴文化图像认知情况的问卷调查分析结果来看,65.2%的被调查人员对巴文化图像基本有所了解,不太了解的人数次之,占25.8%,完全不了解的占5.7%,非常了解并熟悉的人数最少,只有3.3%。由此可以清晰地看出,虽然巴文化在达州广为流传,但是并没有引起太多研究人员的关注和深入研究,大部分也只是停留在对巴文化表面的认知和理解而已,具体数据见表4。
表4 对巴文化图像的了解情况
3)对图像显著性检测的认知情况。自从显著性检测引入到图像中以来,广大研究者都进入到该领域进行研究,这些研究支撑着图像分割、图像拼接及图像识别。但是,在调查过程中发现,96.6%的受调查者不了解显著性检测,只有0.5%的人是了解的,具体数据见表5。
表5 对图像显著性检测的认知情况
从这次调查的结果中可以清晰地看到,被调查人员对图像显著性检测的专业性和认知情况堪忧,究其原因,一方面是显著性检测的专业性较强,一般人都对它不甚了解;另一方面,广大人民群众只是了解图像,但却不知道图像间是如何联系、如何检测的。
4)对数字化保护的了解和认知情况。从被调查人员对数字化保护认知状况的调查结果及分析来看,78.2%的被调查人员完全不了解数字化保护,只有4.6%的人认为自己是了解的,具体数据见表6。
表6 对数字化保护的了解情况
5)对巴文化数字化保护的认知情况。在调查过程中发现,83.7%的受调查者不了解巴文化数字化保护,只有2.6%的人是了解的,具体数据见表7。
表7 对巴文化数字化保护的认知情况
从调查结果可以分析出,受调查者对数字化保护有一定的认知,但对巴文化数字化保护的认知不足,说明达州市对巴文化的宣传力度是不够的,对巴文化的数字化保护也不到位。
巴文化遗产的数字化保护与开发主要是对巴文化资源的各种数字化保存、数字处理分析和数字化挖掘及应用,即如何充分挖掘和合理利用古老而充满生机的巴文化遗产资源,为今天的达州、巴中等市的发展发挥积极的推动作用[3]。巴文化资源有巴文化符号、巴文化图腾、巴文化石刻、巴文化陶器、巴文化服饰、巴文化建筑、巴渝舞等,这些资源均有大量的图像资料,研究各种巴文化资源的特征,并能根据这些特征快速定位图像的显著区域,进而为巴文化各类型图像的分割、识别、语义标注提供依据,达到图像资料保护的目的,这便是该文的核心内容。
到目前为止,图像显著性特征多种多样,如颜色、形状、纹理、空间、边框、HOG、Focusness、Objectness等。巴文化图像有符号、图腾、石刻、陶器、服饰、建筑、舞蹈等,其特点是“粗犷”,符号比较简单,颜色不丰富,形状较清晰,纹理较细腻,没有复杂背景,又由于显著性检测是巴文化图像其他技术的基础,因此其不适用于太复杂的特征,仅仅只需要简单、快速的特征即可。巴文化图像的特征可以分为3 类,适合符号、陶器的颜色、形状特征,即侧重于形状;适合于图腾、石刻、建筑的形状、纹理特征,即侧重于纹理;适合于服饰、舞蹈的颜色、纹理特征,即侧重于颜色。
图像显著性的检测算法多种多样,如Itti、FT、HFT、DHFT、HC、HOG、HDCT、LBP、OUF、RBD 等。其中FT、HFT、DHFT 算法是将图像变换到频域,在频域采用滤波器的方法来获取显著性信息,HFT 采用不同尺度的高斯核函数进行滤波处理,然后基于熵准则的优选方法选择最优显著图。其中Itti、HC、HOG、LBP、OUF、RBD 等算法工作于空域。Itti 算法被认为是最早的基于人体生物学原理的显著性检测算法[4],其计算图像中心-环绕区域的颜色、亮度、方向的差异;HC 是采用颜色直方图的对比度来计算显著性的,去掉了低频的颜色,加快了速度,并且可以进行全局统计;HOG、梯度直方图计算图像中每个单位像素的梯度,并统计每个单元的梯度值,然后进行累加,它对于图像的几何和光学的形变都能够保持良好的不变性,从而直接获得图像的形状和纹理特征;LBP 算法主要用于分析和提取图像中各个局部的纹理特征,具有灰度不变性和旋转不变性两大主要优点,其中直方图算法就是根据图像局部块的LBP 值统计得到的;OUF 算法主要用于计算Objectness、Uniqueness、Focusness 等高级特征;RBD算法则是通过计算背景特征来获得显著图。频域算法相对于空域算法来说,可调参数少、计算速度快。空域算法的信息更丰富,但也更复杂。
巴文化图像的特点是符号简单、纹理丰富、颜色单一、形状清晰、轮廓分明,因此选择显著性检测算法时可以不计算较复杂的特征,只需要计算形状、纹理、颜色等特征即可。不同类型的巴文化图像,算法也是不一样的。符号、陶器侧重于形状特征,可以使用HOG 算法,并加入RGB 颜色特征;图腾、石刻、建筑侧重于纹理特征,可以使用LBP 算法,适度加入HOG 形状特征;服饰、舞蹈色彩鲜丽,侧重于颜色,可以使用HC 算法,加入Gabor 滤波器来获取纹理特征。以上3 种算法都可以加入频域的HFT 算法,这样会更精确。
图像显著性的评估方法有3 种。PR 曲线用于评估实验的精准率P和召回率R,精准率指的是显著像素正确检测的比率[5],召回率指的是检测出来的显著像素与真值图中显著像素的比率[5]。F-measure 是图像显著性检测算法常用的方法之一,是其精准率和召回率的平均值。MAE 直方图方法是检测平均绝对误差,用于检测非显著区域[5]。
巴文化图像的背景区域较简单,前景显著图也清晰,所以用PR 曲线评估算法即可。
作为“巴人故里”的达州,其相关图像众多,当前需要采用数字化手段对其进行采集、保存、处理、修复、展示和传播。对巴文化图像进行修复、展示、传播需要对图像进行识别、分割、拼接,这些必须以图像显著性检测为基础。目前达州巴文化保护和开发主要体现在3个地方:达州市博物馆、宣汉罗家坝遗址、达州巴人文化广场,这3 个地方仅仅只是把巴文化遗址出土的文物进行了展示,将“巴人、巴国、巴魂”进行了简单的复制,完全没有采用数字化技术保护和开发巴文化,也没有对巴文化进行宣传,更没有将巴文化融入产业中,因此也未涉及图像的显著性检测。
文中主要对巴文化图像进行了显著性检测,如图1 所示。巴文化图像首先按照两种方式进行分割:多尺度分割和超像素分割。多尺度分割后得到多尺度图像,采用HFT 频域算法得到多尺度显著图,并根据熵选择最优显著图;超像素分割后,根据不同类型巴文化图像分别提取颜色、纹理和形状特征,形成相应的显著图,然后进行线性融合;最后将两个显著图进行贝叶斯融合。
图1 巴文化图像显著性检测算法
文中以四川省达州市博物馆内的巴文化图像为例,进行显著性检测研究。其主要技术包括多尺度图像生成、超像素分割、特征提取、多尺度显著图选择和显著图融合等5 个环节。多尺度分割就是在频域上对各种不同带宽的高斯核函数信号进行滤波和处理,以便于得到各种尺度的显著目标[6];超像素分割技术主要是将一张图像划分为多个相关的子区域,即多个像素的集合,也可以称之为超像素[7];特征提取:文中采用HC 方法直接提取图像中的颜色特征,采用HOG 算法提取图像的形状特征,采用LBP算法提取图像的纹理特征,各种特征各自形成相应的显著图;不同尺度的特征图所表达信息的重要性是完全不一样的,所以在频域上多尺度显著图科研使用信息熵最小的方法进行选择;颜色、纹理、形状显著图的融合则采用线性融合的策略,即通过加、乘、取对数等方法进行融合,这种方法被认为是迄今为止最简单、效率最高的一种融合方法;空域和频域显著图使用了贝叶斯方法进行融合,用概率表示所有显著图的可靠性和不确定性,利用样本对象的先验概率来计算其后验概率,即该对象是否属于某一个类别的概率。选择一个具有最大后验概率的类别作为该对象的所属类,也就是说,贝叶斯分类器实际上是最小错误率意义上的优化。
巴文化的研究已经起步多年,达州市的巴文化研究早在2011 年就已经开始,2018 年就明确了巴文化高地建设的“12359”战略。在数字化技术飞速发展的今天,将数字化技术运用到巴文化遗产的研究保护与挖掘开发中,能够充分地挖掘和利用巴文化遗产中文化元素资源潜在的社会价值。在现代数字化信息技术中,图像作为信息数据资源最有应用价值。图像的处理无时无刻都离不开对图像显著性检测的分析和研究,例如巴文化符号的识别和跟踪的原理是由于目标的某种显著性特征可以被识别;巴文化图像的检索中,根据图像的颜色、纹理、形状以及像素构成快速地搜索目标图像的信息,与此同时,还可以实现感兴趣区域图像的精确压缩存储,从而优化存储的性能,节约存储的空间。文中对巴文化图像的显著性检测研究仅仅只是开始,未来还需要进一步发展相关研究。