基于XML的开放电子文档标准分析

2011-09-18 02:46杨文宏
航空标准化与质量 2011年6期
关键词:电子书文档标准

曹 平 杨文宏 朱 亮

(中航工业综合技术研究所,北京 100028)

信息载体与传播手段的不断翻新,使各种新的出版形态相继涌现,而新的出版形态都会用数字化技术来实现,因此称其为数字出版。所谓数字出版就是指出版内容数字化、传播网络化、经营集约化和交易电子化[1]。标准作为一种特殊的出版物,传统的标准形式、流程和模式也受到了全方位的冲击和挑战,其数字出版的需求十分迫切。标准数字出版的关键技术是对标准的数字化、结构化和规范化表达,而基于XML(eXtensible Markup Language)的开放式电子文档标准是解决文档有效表达的必要前提。目前,国外有关的开放式电子文档标准有很多,如EPub、SCORM、S1000D和NewsML。本文对这些标准进行了详细介绍和分析。

1 标准介绍

1.1 EPub

EPub(Electronic Publishing)于2007年9月成为国际数字出版论坛(IDPF)的正式标准,以取代旧的开放电子书标准(OEBPS)。2011年,IDPF发布了EPub 3.0版本。EPub是一个自由的开放标准,属于一种可以“自动重新编排”的内容标准,即文字内容可以根据阅读设备的特性,以最适于阅读的方式显示。EPub文档内部使用了XHTML(eXtended Hypertext Markup Language)或DTBook(一种由DAISY Consortium提出的XML标准)来展现文字、并以zip压缩格式来包裹档案内容[2]。目前,以谷歌、苹果公司为代表,众多公司都以Epub作为数字图书的格式。如图1所示,EPub包括3项内容。

1.1.1 开放出版结构(OPS)

开放出版结构(Open Publication Structure,OPS)提供一个标准来制作电子书的内容,使得电子书内容提供商(例如出版者或作者)能依据该标准来制作电子书,并使得厂商能遵循该标准来发展电子书阅读器,进而使得不同厂商的电子书阅读器都能显示不同电子书提供商所制作的电子书。

1.1.2 开放包裹格式(OPF)

开放包裹格式(Open Packaging Format,OPF)描述电子书中各单元内容间的关联性,如何将数个满足OPS规范的电子书单元内容包裹成一本电子书。

1.1.3 OEBP容器格式(OCF)

OEBP容器格式(OEBP Container Format,OCF)描述如何将电子书内容压缩成单一的电子档,以便于电子书的传播、发送与档案管理。

1.2 SCORM

图1 EPub文档组织结构

ADL(Advanced Distributed Learning)于1997年底启动开发SCORM(Sharable Content Object Reference Model,共享内容对象参考模型)标准,2000年1月发布SCORM1.0,进行第1次的学习内容对象整合。2001年1月,ADL发布了SCORM1.1,朝正式应用迈进。2001年10月1日,ADL发布了SCORM1.2,该版本引入课程内容封装的概念,并增添了为课程组件编写元数据部分。2004年,ADL组织再次修改了SCORM技术标准,命名为SCORM2004(SCORM1.3)。SCORM2004主要由BOOK1概述(The SCORM Overview)、BOOK2内容聚合模型CAM(The SCORM Content Aggregation Model)、BOOK3运行环境RTE(The SCORM Run Time Environment)和BOOK4顺序和导航SN(Sequencing and Navigation)构成。BOOK1中介绍了ADL组织与SCORM的概述;BOOK2说明了把学习资产组成具有结构性的学习组件的方法,描述了学习内容对象、内容封装的相关信息;BOOK3提供了把学习组件传给学习者以及追踪学习者进度的方法;BOOK4中通过规范来制定内容的呈现顺序以及呈现界面装置,让学习者触发导航事件,以促进学习者的理解。经过10年多的发展,SCORM2004成为集内容聚合模型、运行环境、顺序和导航于一体的完整标准体系。其中内容聚合模型包括内容模型、内容封装、元数据和排序与呈现4个部分。内容模型包括资产(Asset)、共享内容对象(SCO)和内容组织,如图2所示[3]。资产是学习元件中最小的元件,它可以是文章、图片、声音或网页等。共享内容对象是由多个资产组成的学习元件,也是唯一能够与学习管理系统通信的元件。共享内容对象与资产的重要区别就是能否进行通讯。

1.3 S1000D

图2 SCORM文档组织结构

S1000D是由欧洲宇航与防务工业协会(ASD)、美国航空航天工业协会(AIA)和美国运输协会(ATA)共同制定的一个采用公共源数据库(Common Source Data Base,CSDB)创建交互式电子技术出版物(Interactive Eiectronic Technicai Pubhcations,IETP)的国际规范。从上个世纪80年代发布第一个版本以来,S1000D规范先后发布了多个版本,其最新的版本为2011年发布的4.1版本,适用的范围也从最初的军用飞机产品扩展到现在的海、陆、空等各种军用和民用装备。

按照S1000D生成的SGML(Standard for General Markup Language,通用标记语言标准)或XML中间格式文件,具有模块化形式,这种模块化文件称之为“数据模块”,它由两大部分组成[4],如图3所示。第一部分为标识和状态,包含技术文档资料所有的管理信息。在向用户提供技术信息时,这部分内容并不显示。第二部分为文档内容主体,主要包含文字说明和图例等。S1000D根据文档中所描述的信息内容又将文档内容主体主要分为8个大类,分别定义了数据模式。

图3 S1000D文档组织结构

1.4 NewsML

2000年10月,国际新闻电信理事会(International Press Teleconununications Council,IPTC)发布了NewsML的l.0版本。2002年10月,IPTC公布了NewsML的1.1版本。2008年1月,IPTC经过了几年的修改和完善,正式发布了新一代的新闻标识语言NewsML G2。NewsML G2包括NewsML G2、EventsML G2及SportsML G2三个部分[5]。作为NewsML体系结构顶层的抽象类任意项<anyItem>有4个派生类,它们是新闻项<newsItem>、包裹项<packageItem>、概念项<conceptItem>和知识项<knowledgeItem>,如图4所示。NewsML的核心是newsItem概念,newsItem可包含各种媒体(包括文本、图片、图形和视频)。newsItem由新闻元素<newsItem>、项目元数据<itemMeta、内容元数据

图4 NewsML文档组织结构

<contentMeta>和内容集<contentSet>4部分组成。

2 综合分析

基于上述对EPub、SCORM、S1000D和NewsML等标准的剖析,不难发现:EPub标准主要是应用于一般书籍制作;SCORM标准主要是应用于培训课件制作;S1000D标准主要是应用于产品手册出版;NewsML主要是应用于新闻报纸出版。尽管这4个标准是应用于不同的领域,但它们都具有以下几个共同理念或特点。

2.1 对象元素化

通过总结对象的基本特点,用一组元数据来实现对象(如书籍、课件、手册、报纸等)的标识和状态信息描述。如NewsML中,就是通过管理性元数据(Administrative Metadata)、描述性元数据(Descriptive Meatadata)和版权元数据(Copyright Metadata)描述一条新闻的基本情况的。

2.2 内容离散化

通过总结文本内容的编写规则,将成篇内容分解成有一定主题的内容片段。如S1000D中,就是将数据模块的文档内容分成了8个大类,并分别定义了内容离散化的数据模式。

2.3 文本语义化

基于XML制定共同的、智能的、可操作性较强的标记模式。这种标记模式不仅能够结构化文本内容,同时还能使计算机区分文本内容含义。比如,同样是“华盛顿”,可以标记为美国第一总统,可以标记为地名,也可以标记书名。

2.4 数据模块化

将文档中重复出现的内容,转换成独立的数据模块。通过模块的重用和组合形成能够满足不同需求的数据集合。数据模块化为用户信息定制提供了基础。如EPub中的“单元内容”、SCORM中的“学习元件”、S1000D中的“数据模块”、NewsML中的“新闻项”都是模块化的体现。

2.5 呈现样式化

标记语言从SGML、HTML发展到XML,其技术上一个最大的进步就是内容和形式的分离。也就是说内容制造商完成文本的标记,出版印刷环节中的出版商和阅读中的作者(在显示器上)可以控制字形、字体大小、字体颜色、行距和长度、页边距和缩进、背景图像、颜色以及其他元素。这一切的实现主要是通过样式表来实现的。

2.6 结构开放化

所谓开放化包括两个层面的含义,一方面是指文档内容结构是公开的,另一方面是指允许用户在已定义结构的基础上自定义或扩展相关元素。目前EPub、SCORM、S1000D和NewsML都已成为公认国际通用标准,并且都提供了可扩展机制。

3 结束语

数字出版和传统出版的本质区别在于信息组织方式发生了革命性的变革。未来以EPub、SCORM、S1000D和NewsML为代表的开放电子文档标准是实现数字出版的关键所在,我国应加紧对这类标准进行跟踪、研究和推广。另外,目前国际上还没有的关于描述标准自身的标准。作为标准化研究机构不妨考虑在借鉴国际上通用成熟标准的基础上,结合标准自身特点,制定出基于XML的开放式电子标准格式规范。

[1] 梁上启.“泛在计算机时代”数字出版盈利模式研究[J].编辑之友,2009.

[2] Epub 3.0[S].http://idpf.org/epub/30.

[3] SCROM 2004[S].http://www.adlnet.gov/capabilities/scorm.

[4] S1000D 4.1[S]. http://www.S1000d.org.

[5] NewsML-G2[S].http://www.iptc.org/NewsMLG2/Speci fi cation.

猜你喜欢
电子书文档标准
2022 年3 月实施的工程建设标准
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
忠诚的标准
谈谈电子书
美还是丑?
Word文档 高效分合有高招
电子书可以帮助提高儿童的词汇量
一家之言:新标准将解决快递业“成长中的烦恼”
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat