初探出版企业数字内容加工方法
——以数字内容出版服务云平台为例

2018-12-25 08:08:06马嵩武汉大学信息管理学院

数码世界 2018年4期

马嵩武汉大学信息管理学院

1 研究意义

现阶段出版企业对自身开展的数字战略仍然基于传统出版思维，注重内容，而数字出版产品形态单一，服务模式单一。出版企业生产的数字化产品不能是简单的直至内容数字化，而应该注重产品内容结构的改变，充分利用信息技术的优势对内容资源进行集成化、知识化处理，形成的数字化产品要致力于满足用户的个性化和非线性的需求。注重媒体与用户的交互性，注重智能推荐与推送。

2 研究现状

2.1 国内研究现状

对数字内容的加工处理技术，以前的研究者主要采用的方法有信息抽取、信息拆分以及信息标注三类，研究对象主要集中在单独的文本、图片或视频。其中，基于Web的语义标注方法应该最为广泛，被广泛应用于Web服务的语义标注问题，但这种方式不能很好地对不同类型关联描述和富内容标记进行标注。针对这种情况，尤其随着语义网技术的快速发展，越来越多的学者开始引入语义网技术到标注技术中，实现语义标注的智能化。语义标注技术是数字出版知识化处理的核心技术，通过对数字出版知识库中的知识片段进行合理标注，不仅能清晰地描述不同内容片段间的相互关系，实现不同数字内容的快速检索与重构，而且还能为出版者提供授权标注查看、添加、修改等各项增值服务。但是，从目前的相关研究成果来看，数字内容资源的标注仅限于对简单图形指示的文本标注，这对于日益丰富的多媒体信息来说是远远不够的。如何实现对同一个数字出版内容片段可以分别使用文本、图形、语音进行标注，且在同一个标注点可以同时使用文本、图形、语音进行标注，以及实现同一个标注点的多用户协作标注和多用户独自标注，是语义标注技术研究的最大难点和关键点。

数字出版的需求，开始发生从注重内容到更加注重展现的转变、从记录到快速而广泛的转变、从统一到个性化的转变。读者期待可以提供所需的一幅画、几张图或是一个自然段，期待可以重新组装不同的图书内容，整合形成个性化出版物。而现阶段的出版技术，还主要以内容数字化为特征，将内容以数字化的各种电子文件存储在网络服务器或电子阅读器等，通过多种方式对数字内容进行编纂和开发，并由此形成不同形式的数字出版物，已经远不能满足数字出版新的需求。

2.2 国外研究现状

在国外，国内外学者主要从信息抽取、信息拆分以及信息标注等方面展开研究。同时学者们进行了大量关于数字内容标注方面的研究。谷歌公司通过比较媒体文件的第一实例和该文件中第二实例的特征，建立两个实例之间的映射，实现了传送与媒体文件相关联的用于视频的标注系统和方法。美国学者利用H.264/AVC中每一个视频流的视频帧的NAL单元记录标注信息，实现对视频的标注。在智能标注研究方面，国内外学者主要关注于帧标记、图像标记技术的研究。其中帧标记技术主要应用于对视频标记，而图像标记技术主要应用于对文本内容进行标记。目前，全球许多著名的出版机构、学术组织和研究中心纷纷涉足该领域，如美国公共科学图书馆、英国皇家化学学会、励德爱思唯尔、施普林格、维基百科等。

3 数字内容加工技术主要研究内容如下：

3.1 内容标注技术：将数字资源碎片化以后，利用标引工具，对碎片化结构化的数字内容资源进行标注。根据不同的内容类别，按照不同的标注体系进行标注。

3.2 自适应发布：研究各类阅读终端设备特性和使用特性，设计硬件设备特性提取算法和终端设备信息数据库模型，引入多属性决策理论，根据已设计的出版格式和硬件设备信息数据模型设计自适应跨终端适配模型，构造数字出版样式渲染的模型。

4 平台数字内容获取与结构化加工模块功能分析

通过对资源进行结构化加工(标引)、管理、审核以及产品包组建的功能，提供资源提供商资源上传入口、标注资源属性的功能。主要包括了四个模块的内容：

4.1 机构资源上传

使用主体：机构用户。资源提供商实现资源的上传的入口。提供机构进行资源上传以及标注资源属性功能和机构销售结算数据。主要功能包括：资源入库、资源标注、资源库管理、资源销售/结算管理、系统管理等功能。

4.2 待加工资源库

使用主体：数字编辑。待加工资源库为“分享资源”和“机构资源”汇集点，作者分享的资源和资源提供商上传的资源汇集成为“数字资源库”，基于此库，能够进行下一步的资源加工。

4.3 编辑加工模块

使用主体：数字编辑。包括了“任务分配”、“资源加工”、“资源审核”三个主要部分，是编辑人员对资源进行加工和审核模块，审核通过形成的资源库称为“出版库”，是一个结构化的资源库，能够供二维码等进行资源的读取和使用。“出版库”包括了“分享资源库”和“碎片化资源库”，前者能够进行分享资源的查询，后者则是标引完成的“碎片化资源库”。

4.4 产品组建模块

使用主体：数字编辑。包括了“产品包组建”和“产品包审核”。基于“出版库”中的“碎片化资源库”，编辑按照审核通过的资源建设策划报告，组建能够运营的产品包，审核通过后能够将资源发布至平台；“分享资源库”则经过“编辑加工模块”审核通过后，进入“出版库”和“产品库”中，在“出版库”中进行查询，在“产品库”能够发布至平台。

5 数字内容多终端自适应技术分析

5.1 内容与版式分离

内容与版式分离，即在数字内容发布前，内容的编辑生产与版式的制作生成分离。一方面，内容以XML语言的形式存储于知识库中，摆脱终端对内容编辑生产的桎梏，使内容提供商可以专注高质量、高需求内容的创造。另一方面，另行构建版式模板库，并基于终端特性与用户需求偏好的分析，从中自动选出匹配的版式，从而将终端屏幕尺寸适配与用户偏好契合的求解过程转换为匹配版式的自动生成过程。内容与版式分离，是数字内容多终端自适应发布的重要功能特征，也是数字内容“一次制作，多元发布”的主要实现途径。当前，方正自主推出的CEBX格式正是在内容与版式分离的基础上，通过结构化版式文档技术将包含的结构化信息实现内容呈现时的实时排版，以及内容呈现时的屏幕自适应效果。

5.2 阅读终端设备适配

多终端自适应发布，是为了寻求一种能够针对不同终端特性的有效的适配方案，实现发布内容以恰当的页面比例、恰当的分辨率、恰当的内容格式以及合理的设备资源占用，输出至终端。否则，多终端自适应无从谈起。具体来说，PC等大屏幕、性能强的终端，能够实现内容呈现效果媲美印刷出版物；小屏幕终端，则能按照显示屏大小自动换行、重排；支持智能操作的终端，能够提供更多交互功能提升用户体验、增强用户黏性。

5.3 兼顾用户偏好需求