PDF文件格式研究

2009-06-20 08:45田海月
中国高新技术企业 2009年6期

田海月

摘要:文章介绍了PDF阅读器的基本功能。PDF阅读器能够正确阅读PDF格式文件,也能对PDF文件进行管理。该系统能够提供阅读、翻页、选择文本、选择图片、放大缩小、复制、粘贴、书签、注释等功能。

关键词:PDF阅读器;文件格式;电子图书格式

中图分类号:TP311文献标识码:A文章编号:1009-2374(2009)06-0027-02

随着电子出版物的日益丰富和因特网的快速普及,人们可以很方便地获得大量的、各学科的电子资料。在这些资料中,特别是各政府机关、学术机构、标准组织和各大公司在网上发行的各种资料与产品手册,有愈来愈多的在使用ADOBE公司开发并大力推广的PDF格式。

一、文件格式

目前主流的电子图书格式还没有统一的电子图书文件格式,不同的公司因版权或商业因素等诸多原因,往往各行其事,采用不同的文件格式,其中最常用的有以下几种:

PDF格式:PDF格式是ADOBE公司推出的电子图书专用格式,它无论在何种机器、何种操作系统上都能以制作者所希望的形式显示或打印出来,表现出跨平台的一致性,效果非常理想。它是目前比较先进的一种电子图书格式,应用非常广泛。

WDL格式:WDL格式采用图文混排方式,一个文件就是一本电子图书,阅读、携带都很方便,更重要的是WDL格式对中文的支持非常好,其应用范围也非常广泛。

HTML(超文本格式):HTML的特点就是显示效果好、表现力强、文件比较紧凑,不会占用太多磁盘空间。另外,HTML的兼容性非常好,我们只要是安装了Windows9X/2000即可阅读HTML文档。

图像格式:用户必须借助于图形浏览软件或专门的图形方式阅读软件才能进行阅读。它有一个明显的缺点,就是文件体积比较大,这导致下载、阅读速度都很慢,显示效果也不太理想。

可执行文件格式:部分电子图书采用了可执行文件格式,我们必须执行它们附带的应用程序才能进行阅读。此种格式的文件占用的磁盘空间非常巨大,往往不适合在Internet上传输,而只能采用光盘形式。

文本文件格式 :除了上面介绍的几种文件格式外,还有部分电子图书采用了最原始的文本文件格式,它的显示效果虽然最差,但文件的“块头”无疑最小,在网络速度不是太快的今天,可以为读者节省更多的时间。

二、PDF文件格式

PDF从页面描述语言PS(Post Script)发展而来,具有与PS几乎相同的页面描述能力和相似的描述方法。但与PS不同的是,PDF除了能描述复杂版面外,还具有交互功能(如超链接、交互表单等)、页面随机存取及字体仿真描述等特性。因此,PDF不仅适合印刷出版,而且也适合电子出版。

(一)PDF的结构

1.PDF文件结构。PDF文档是通过一系列对象序列来构造的,PDF对象包括直接对象(Direct Object)和间接对象(Indirect Object)。一个典型的PDF文件包含4个部分,分别是文件头、文件体、交叉引用表、文件尾。

2. PDF文档结构。PDF的文档结构是一种树型结构(如图1所示)。树的根节点就是PDF文件的根对象。根节点下有四个子树:页面树(PagesTree)、书签树(OutlineTree)、线索树(Article Thread)、名字树(Named Destination)。书签建立了书签名与一个具体页面上的位置的关联,它使得用户可以按书签名字来访问文档的内容。

图1 PDF文档结构

(二)PDF的特点

1. PDF的技术特点。PDF文件由文件底层数据层、文本图像数据层、附属信息数据层等构成。底层数据层包括字体信息、交叉参考表(简称xref)等所有的控制信息。文本图像数据层包括文件中的所有文本代码、矢量图形和位图数据。附属信息数据层包括文件书签和文件或页面链接等所有的功能扩展数据。

2. PDF的应用特点。多平台特性、超媒体特性、多媒体表达手段文件小,阅读方便,打印效果好。

3. PDF文件的生成。目前PDF的生成有两种途径:(1)通过打印的方式生成PDF,就是通过一个虚拟的PDF打印机将应用程序的文字和图形指令转换为PDF指令并保存在PDF文件中。(2)由PS转换到PDF是另一种生成PDF的方法,它是由应用程序先将待打印的内容发排到PS文件,再由Adobe Acrobat Distiller将PS文件转换成PDF文件。

三、系统基本功能需求

PDF阅读器系统应当能够准确的阅读PDF格式文件。同时系统能对PDF格式文件进行管理,系统能够提供阅读、翻页、选择文本、选择图片、放大缩小、复制、粘贴、书签、注释等一些基本的功能。

(一)用户界面需求

PDF阅读器系统的界面应当具有WINDOWS风格,界面简单大方,操作简便快捷,稳定性好,并能为用户的操作提供方便。

(二)系统性能需求

由于PDF阅读器系统,是供用户来阅读PDF文件的。因此,系统应该具有很好的灵活性,使用户能够很方便的对打开的PDF文件进行操作。

(三)系统的可扩展性

系统应该留出足够的空间方便以后添加控制项,对文件进行控制、处理、存储等操作。也就是说,在不影响用户使用该系统的情况下,能够方便的添加一些新的功能。将来的系统应该更为成熟,功能更加完善。该系统应该具有友好的用户界面,能够提供较多的管理显示功能。

(四)系统的安全性

PDF文档可以从未授权入口通过加密来保护它们的内容,也就是说PDF文件可以长期保存文件而防止文件数据的丢失。

(五)PDF生成器

PDF阅读器能够正确的阅读PDF格式的文本、图片等,并且能够对PDF文件进行管理。此PDF生成器分别实现文本文件即TXT文件转换为PDF文件和图片文件如JPG,GIF,TIFF等转换为PDF文件。在转换之前,可以根据需要对文本文件和图片文件进行设置。设置功能包括内容设置和页面设置。其中内容设置有顶部、底部、左侧、右侧的设置,页面设置有页面大小、打开方式、打开模式、全屏效果和是否打开Adobe Acrobat等的设置。

四、结语

PDF文件是目前比较先进的一种电子图书格式,应用非常广泛。由于用Adobe免费的PDF阅读器(AcrobatReader)阅读中文PDF时只能显示TureType中文字体,且无法实现平台独立和字体独立;又不支持中文字体的下载这两个问题。其解决的最好办法就是开发中文PDF阅读器。实现PDF检索系统,从PDF中提取信息,在其他应用程序中支持PDF的输入和阅读。

参考文献

[1]官章全,韩云君,李罡. Visual C++6.0高级编程范例[M]. 北京:电子工业出版社,2001.

[2]侯俊杰.深入浅出MFC [M].武汉:华中科技大学出版社,2000.

[3]扬伟.常用电子图书格式和阅读工具的分析研究[J].电子科技大学图书馆,2001.

[4]邓华,毛岩,吉正. Visual C++案例教程[M].北京:中科多媒体电子出版社,2001.

[5]张海潘.软件工程导论(第三版)[M].北京:清华大学出版社,2001.