视觉资源数字对象格式与精度研究

2009-07-29 10:00彭建波史国祥孙劲松

大学图书馆学报 2009年6期

彭建波史国祥孙劲松

摘要在文献调研、网络调研、实地走访和实验的基础上，对视觉资源数字对象常用的GIF、JPEG、JPEG2000、TIFF、DjVu等格式进行了分析，指出JPEG是视觉资源数字化过程中得到广泛应用的一种成熟格式，JPEG2000是一种较好的替代格式；DjVu格式不适合视觉资源的数字化；视觉资源数字化的最佳格式模式是采用600dpi全彩色TIFF格式进行扫描，再将扫描文件转换为300dpi的JPEG2000格式，采用Deep Zoom技术进行网络呈现。

关键词视觉资源数字化图像格式Deep Zoom

1问题的提出

高等学校中英文图书数字化国际合作计划(cADAL)是国家发展和改革委员会、教育部、财政部确立的“十五”期间“211工程”公共服务体系建设的重要组成部分，目前正在进行二期项目的建设准备工作。CADAL美术资源数字化项目是以中国美术学院图书馆的美术资源为基础，联合国内其他美术院校图书馆，对涵盖文字、图像和影音信息的美术资源进行大规模、系统化的数字化建设，是CADAL二期拟建设的子项目之一。美术作品数据库(群)的建设是其核心内容，即将馆藏的美术作品原件、高仿画、文物、画册等视觉资源数字化，建设成国画、油画、版画、雕塑、书法、篆刻、建筑等数据库(群)，同时，实现数据库(群)的统一检索。

从广义上讲，所有的图像资源都是视觉资源，如地图、照片、医疗图像等；从狭义上讲，视觉资源一般专指美术图像资源，如北美地区的视觉资源协会(Visual Resources Association)便是专门研究美术图像资源的行业协会。本文所指的视觉资源专指狭义上的美术图像资源，在色彩上，它比地图、医疗图像等视觉资源具有更高的要求。选择合适的数字对象格式与精度是视觉资源数字化建设的首要问题，它不仅关系到内容的呈现方式，还关系到信息的存储成本及其搜索、利用程度等问题。

本文拟根据文献调研、网络调研、实地走访和实验等方式，探讨视觉资源数字化过程中所应选用的格式与精度。

2视觉资源数字对象的常用格式

视觉资源数字对象的格式达几十种之多，主要有GIF、JPEG、JPEG2000、TIFF、PDF、PNG等等。针对国内外视觉资源数字对象常用的几种格式介绍如下：

GIF格式是一种压缩的8位图像文件，其特点是压缩比高，磁盘空间占用较少，下载速度快，还增加了渐显方式，但是，它不能存储超过256色的图像，不能用于存储真彩的图像文件。

JPEG格式由联合照片专家组(Joint Photograph—ic Experts Group)开发并命名为“ISO 10918-1”，JPEG只是一种俗称而已。目前各类浏览器均支持JPEG这种图像格式，它主要用于压缩静态图像，只能支持有损压缩。JPEG格式的文件尺寸较小。下载速度快，适合在网络上传输。

JPEG2000是JPEG的升级版，其压缩率比JPEG高约30％，同时支持有损和无损压缩，而且能实现渐进传输。此外，它还支持“感兴趣区域”特性，用户可以指定影像上任何感兴趣区域的压缩质量，还可以选择指定的部分先解压缩。

TIFF的正式名称叫标签图像文件格式(TaggedImage File Format，简写为TIFF)，是一种主要用来存储包括照片和艺术图像在内的图像文件格式。它存储的图像细微层次的信息非常多，图像的质量也得以提高，非常有利于原稿的复制。该格式有压缩和非压缩二种形式，文件尺寸较大，不适合网络传输。

DjVu格式是AT&T实验室针对扫描文档、数字文档或照片中高解析度的Web应用开发的格式，其文档压缩率比现有的JPEG和GIF等格式彩色文档优5到10倍，比TIFF格式的黑白文档好3到8倍。同样的内容，DjVu比PDF(或TIFF)的压缩率高近一倍，对彩色图像更是独具优势，以300dpi全彩色方式扫描的文档可被从25MB大小压缩到30-100KB大小。

3视觉资源数字对象格式与精度的应用现状

在互联网上，诸多项目对视觉资源数字对象的格式与精度有着不同的选择，对这些项目进行调研，对CADAL美术资源数字化项目选用合适的数字对象格式与精度有着重要的参考意义。调研发现，视觉资源数字对象格式与精度的应用主要有三种模式：

模式一：单一格式模式。在这种模式下，网站提供JPEG格式或GIF格式的图像供用户检索、浏览。如香港迪志文化公司的“文渊阁四库全书电子版”用GIF格式来处理插图；西安建筑科技大学的“建筑数字博物馆”中的图像采用GIF格式或JPEG格式；大量的项目则是采用JPEG格式的图像，如欧洲数字图书馆、大英图书馆“美术馆在线”、日本国会图书馆“贵重书画像”、蓬皮杜文化艺术中心、巴黎卢浮宫艺术图像数据库、意大利乌菲兹数字美术馆、CAMIO艺术博物馆在线、firstVIEW时装图片数据库、台湾华艺公司的“世界美术资料库”和“故宫在线”、徐州师范大学图书馆“中国汉代画像石(砖)数据库”，等等。这些项目中的图像文件大小不等，一般在100K-300K之间，如大英图书馆“美术馆在线”中的图像文件；较大的图像文件可达到1M左右，如徐州师范大学图书馆“中国汉代画像石(砖)数据库”中的图像文件。

模式二：保存文件与浏览文件同时在线提供模式。在这种模式中，对资源进行数字化加工时一般选用TIFF格式，然后再将其转换为低精度的JPEG格式，在网站中同时提供TIFF格式的保存文件和JPEG格式的浏览文件；TIFF格式文件供用户下载使用，JPEG格式文件供用户检索、浏览。此模式最为典型的当属美国国会图书馆的“美国记忆”项目，其保存文件采用300dpi扫描的TIFF格式，文件大小达几兆，甚至几十兆；浏览文件采用300dpi的JPEG格式，文件大小从几十K到几M不等；缩略图一般采用GIF格式，文件大小在100K左右。

模式三：保存文件与浏览文件分离模式。在这种模式中，对资源进行数字化加工时一般选用TIFF格式，然后再将其转换为低精度的JPEG格式；TIFF格式的源文件用于长期保存，不上网提供服务，转换后的JPEG格式文件上网提供检索、浏览。如美国加州大学伯克利分校的SHRO(Slide and PhotographImage Retrieval Online，简称SPIRO)项目，其数字对象采用无压缩的TIFF格式扫描，图像大小一般为56-60M，保存在光盘上；将其转换为128像素和650像素两种JPEG格式后，上网提供检索、利用。再如北京大学图书馆“古籍琳琅”项目，其视觉资源采用300dpi的TIFF格式进行扫描，源文件作为保存文件，不上网提供服务，对源文件进行衰减，转化成

三种大小规格的JPEG文件后上网提供服务，转换后最大的图像文件约2M左右。“中国数字科技馆”项目、“数字故宫”项目和中国国家图书馆自建图像数据库项目等亦采用此种模式。

4对视觉资源数字对象格式与精度的实验

4.1实验环境

扫描仪采用中晶公司Microtek9800XL，最高分辨率为9600dpi，最高色彩深度达48位，最大扫面幅面为A3，扫描软件为MICROTEK SCANWIZARDPRO V6.511。PC机采用IBM L150，CPU为CEL，ERON2.66，内存1G，显卡为NVIDIA GFMX4000。操作系统为WINXPSP3。图片判读工具为ACD，seel0；图片传输测试软件为FASTCOPY V1.92；网络环境为百兆以太局域网。实验过程中，采用24位色彩深度和不同的分辨率对印刷版的画册进行数字化加工。

4.2实验对象

视觉资源主要包括国画、油画、版画、雕塑、书法、篆刻、摄影、建筑、环境艺术等类型。其中，雕塑、建筑和环境艺术是对立体作品拍摄产生的摄影作品，与摄影作品同类；书法和篆刻亦为同类作品。因此，在试验过程中，只需选取国画、油画、版画、书法、摄影五类作品进行数字化加工即可。实验对象统一采用A4幅面的画册进行数字化扫描。

4.3实验结果

各类型资源实验结果如表1所示：

实验结果表明：各类型视觉资源采用相同的格式和精度进行数字化所获得的数字对象，其文件大小相差无几。600dpi的TIFF文件最大，视觉效果最好；300dpi的TIFF文件要比600dpi的J-PEG和JPEG2000文件大，视觉效果要好；在扫描精度相同的情况下，JPEG2000文件比JPEG文件小，但视觉效果要好；DjVu文件最小，但视觉效果最差，肉眼看上去，感觉有一层雾，不清晰。从文件大小和传输时间来看，600dpi分辨率的各种格式文件和300dpi分辨率的TIFF文件大小均在5M以上，在数据下载量大的情况下，这样大的文件将使网络严重堵塞；300dpi的JPEG2000文件大小约2，6M，在局域网中的传输速度不到1秒，且其视觉效果比相同分辨率的JPEG和Djvu文件清晰，显然是一种值得选择的文件格式。

与大多数项目选用TIFF格式或JPEG格式不同，CADAL项目对视觉资源采用600dpi的TIFF格式进行数字化加工，然后将TIFF格式文件转换为300dpi的DjVu格式，上网提供服务。表2是按照CADAL加工规范转换后的DjYu格式文件同按照300dpi扫描的DjVu格式文件和JPEG2000格式文件的大小对比表。

对照表表明：600dpi的TIFF格式文件转换为300dpi的DjVu格式文件后，文件大小得到了大幅压缩，比300dpi的DjVu扫描文件还要小。但是，从视觉效果来看，转换后的DjVu格式文件清晰度远没有300dpi的JPEG2000格式文件高。可见，DjVu格式不适用于视觉资源的数字化。

5视觉资源数字对象呈现的新技术——Deep Zoom

2009年4月21日，世界数字图书馆开通，其视觉资源数字对象采用了一种新的呈现技术——DeepZoom，它是由“Seal)argon”团队创建的一种新技术。Deep Zoom提供高效缩放SilverHght中几乎任意的大图像的功能，用户可以以很大或很小的比例来显示图像，而不影响应用程序显示图像的性能，影响性能的唯一因素是显示器的像素数。简单地说，DeepZoom技术就是能让用户查看很大的一副图片，但仅仅将当前显示的部分发送到用户的浏览器里；用户也可以对图像进行平滑的缩放和平铺，这就使得用户不必花费大量时间来下载一副很大的图片数据，而只需下载其中所要查看的那部分的数据，从而节省下载时间和网络带宽。在Hard Rock Memora，bilia网站中，我们可以看到，对于由1001副高精度图像组成的图像集合，我们可以将其中任何一幅图像进行无限放大，图像质量依然非常清晰。

Deep Zoom的原理是通过使用图像棱锥图来实现按需提供分辨率不同的图像。图像棱锥图将图像平铺到256x256的]PEG或PNG图像图块中，并将图像的低分辨率版本也存储在图块中。每个图块存储在单独的文件中，并且每个棱锥图级别存储在单独的文件夹中。在棱锥图底部以最高分辨率显示图像本身，最高分辨率图像旁边存储分辨率逐渐下降的版本，最低为4x4像素。每个棱锥图级别上的图像存储在256x256像素图块中。这使Deep Zoom可以只提取屏幕上当前图像大小所需的那些图块，而不用下载整个图像。通过Deep Zoom Composer软件，可以将PNG、]PEG、TIFF、BMP格式的图像以Deep Zoom技术呈现。

Deep Zoom技术为我们进行视觉资源数字化建设提供了新的思路。如前所述，现有项目大多采用JPEG或TIFF格式，现在，我们可以运用Deep Zoom来呈现]PEG或TIFF格式的图像文件，这种方式将为用户带来更为快捷的浏览和更为流畅的缩放；由于用户不必下载整幅图像的数据，网络流量的压力也将得以减轻。

6结论

CADAL美术资源数字化项目的建设目的是为美术专业教学、科研提供丰富的图像资源，基于美术专业人员对图像质量的专业要求，其图像质量应高于一般性的数字化项目。结合上述各调研项目的应用现状、实验结果，以及对Deep Zoom的研究，我们认为：尽管DjVu格式能将文件压缩到很小，但由于其视觉效果不理想，对视觉资源的数字化建设并不适用；视觉资源的数字化加工应采用TIFF格式，扫描精度不低于600dpi，色彩深度应达到24位及以上。扫描所得的源文件可离线保存在移动硬盘、光盘或磁带库中，作为数字资产长期保存。对源文件衰减、转换为300dpi的JPEG2000格式后，可上网供用户下载，同时运用Deep Zoom技术将衰减后的JPEG2000文件在网络上呈现，供用户检索、浏览。