赵宏源
随着融合出版的深入,有效整合出版资源以提升利用效率的重要性日益突出,成为出版单位转型发展的基础。一般意义上的出版资源,是指出版活动中构成出版物内容的信息以及出版活动全流程中所产生与需要的全部信息,在经过加工处理有序化后大量积累起来的有用信息的集合。它具有三个主要特征。一是稀缺性,具有可开发的经济价值,用途可以自主选择;二是社会性,出版资源来自社会活动,资源的开发利用具有社会性;三是静态与动态的统一性,在一定时空范围内相对稳定,但在一定时空跨度内的存在形态或者体系又会改变。[1]
根据融合出版的发展,需要整合的出版资源包括三个方面:一是数据,涵盖生产、经营与网络数据,旨在反映出版产品的成本、收益与社会反响等;二是生产或者加工的内容资源,包括图书排版文档、电子书文档以及相关的音视频资源等;三是社会内容资源,包括图书、自媒体内容以及媒体报道等,以分析判断专业领域的发展趋势,辅助选题策划。经过多年努力,我国融合出版有了很大发展,这种形势倒逼出版单位须加强对出版资源的整合力度,以提升资源利用效率,提高选题质量。但是总体上看,出版单位的出版资源整合仍然存在比较大的问题,主要表现在三个方面。
出版资源采集是出版资源整合中最基础的环节,是进行内容深度开发、满足用户场景化需求,实现融合出版的根本。资源采集工作贯穿出版流程的每一个环节,选题确定的同时即产生出版资源,进入销售阶段后,经营数据和各种网络数据不断产生、更新,出版资源的规模随之扩大。
在实践中,出版流程各个环节的操作部门根据本部门需求采集制作资源,例如印制部门从出版物印制角度采集书名、书号、印张、封面与正文用纸、装帧、开本以及相关费用等,发行部门从销售角度采集客户名称、价格、折扣、销量以及物流信息等,数字出版部门从数字化角度采集PDF 文档、ePub 文档以及音频文件等。由于不同部门工作相关性很强,因此必然存在大量相同资源,例如印制部门和数字出版部门所需的PDF 文档、总编办公室和印制部门共同需要的CIP 数据等。每个部门在采集过程中如果涉及其他部门资源,要么到其他部门复制,要么自行采集,均存在重复劳动,造成人力物力的浪费。
沟通成本包括可以计入成本核算的直接成本、信息沟通过程中投入的时间成本,以及因投入沟通而不能投入其他经营活动所产生的机会成本。影响沟通成本的主要因素有组织、决策的时效性,信息编码、传递以及反馈的质量等。[2]内部沟通成本是影响企业管理活动的规范与效率的重要因素之一。
根据所属主体的不同,出版资源可以分为出版单位的内部资源和外部资源,其中内部资源包括生产、经营数据和内容资源等。在出版单位,这些内部资源分别由总编办公室、印制部门、市场部门、发行部门、编辑部门以及数字出版部门等不同部门存储,某个部门在使用其他部门数据时,需要去沟通。例如,发行部门需要图书样张和封面,只能求助于印制部门或编辑部门,无法实现在图书排版完成的同时自动生成,并与其他市场所需数据整合成为数据包,更无法通过系统对接,直接帮助电商平台录入新书数据。
出版资源的管理包括资源的识别、获取、维持、保护、使用和评价等过程。融合出版平台以用户的知识输入效率和效果的提升为宗旨,必然要求对内容进行深度开发,增强内容的权威性、真实性、全面性和客观性,以引导理性阅读,促进深度阅读。
目前出版单位在资源管理上仍然主要采用手工操作模式,图书排版完成后,出版单位将排版文档备份,或者刻录光盘或者存储于移动硬盘。这种模式的资源管理效率有限,存在两个弊端。一是如果文档损坏很难及时发现。现有的电子存储设备受环境影响较大,容易损坏,且不易发现。由于多数图书重印率较低,重印间隔时间较长,因存储设备损坏导致备份文档损坏往往较难及时发现。二是备份文档的准确性无法保证。图书进入付印阶段以后,仍有可能修改,比如对于付印样上个别字词的小改动,编辑往往委托印刷厂直接替换修改页面,因此保留在出版单位的文档常常还存在错误。这两种情况都可能导致资源质量无法保证,影响今后新型出版业务的开展。
鉴于当前出版资源整合中存在的诸多问题,上海世纪出版集团(简称“世纪集团”)在2022 年年初开展出版资源整合项目的试点工作,以“一次采集、多种生成、多次利用”为整合原则,具体实施由下属上海数字世纪网络有限公司(简称“世纪网络公司”)牵头,下属出版单位分工合作,密切配合。试点期间,以上海科学技术出版社作为试点对象,对出版资源流转过程中各个环节的流程进行优化,规范完善各类数据。在此基础上,世纪集团以满足融合出版的各种业务需求为目标,扩大出版资源采集对象,涵盖所有类型的数据和文档;实现出版资源的有效组织,通过多样化的标引建立资源之间的关联关系;发展出版资源的多种利用方式,例如数据接口同步、资源下载、定制浏览等。
在上海科学技术出版社试验成功的基础上,试点对象扩大到上海译文出版社和上海音乐出版社。这三家出版单位的情况基本可以代表世纪集团下属出版单位资源整合的类型:上海科学技术出版社部署了独立的方正云舒书报刊制作平台(简称“云舒平台”),可以满足项目实施前期对图书内容资源的需求,但没有使用企业资源规划(enterprise resource planning,英文缩写ERP)管理系统,无法满足项目实施前期对数据资源的共享需求;上海译文出版社有独立部署的ERP 管理系统,但没有独立的云舒平台;上海音乐出版社则两者都没有,需要借助世纪集团的云舒平台和方正智汇知识服务系统(简称“智汇系统”)。
考虑到有一些管理系统软件,世纪集团下属出版单位已经使用多年,项目实施围绕智汇系统展开部署,兼顾云舒平台、ERP 管理系统、复旦天翼信息管理系统及其他管理系统和软件,以减少整合过程中可能存在的阻力,加快出版资源整合速度。该项目的实施,既包括下属出版单位现有系统数据的同步与操作流程的优化,又包括资源规范、资源组织以及资源利用等的创新。通过世纪网络公司与世纪集团三家下属出版单位反复试验,形成了较完整的项目实施方案,为2023年集团出版资源全面整合奠定了扎实基础。
根据世纪集团下属出版单位已有出版资源的管理方式,整合的资源分为数据和文档两类,前者分散存储在ERP 管理系统与复旦天翼信息管理系统,后者大部分存储于移动硬盘,少量存储于各种资源管理系统或云舒平台。基于该现状,世纪集团将整个项目实施过程分为资源采集、规范建立、流程优化与资源组织四个环节,以融合出版的平台化发展趋势为导向,[3]构建完整的出版资源利用与管理体系。
数据和文档的划分以出版资源的结构化为标准。前者以数字形式表现,是能够进行数学运算的数值,即狭义数据。后者指用于记录、表达和传递信息的载体,包括文本、图像以及音视频等多种形式。出版资源中的数据主要包括元数据、生产数据和经营数据三类。元数据主要用于对图书唯一标识,描述图书的主要特征;生产数据发生在印制领域,反映生产环节的成本、规格和材料等;经营数据发生在销售领域,反映出版单位经营绩效。出版资源中的文档包括所有与图书内容相关的文件,例如不同格式的电子文档、应用程序、音视频等。
根据出版资源的上述分类,世纪集团最终确定资源整合的范围涵盖整个出版流程(包括纸质图书出版和数字出版)中产生的所有数据和文档。经过对世纪集团下属出版单位和电商平台的调研,元数据确定为40 个元素,包括CIP 数据、书刊辅文和文献标引等,涵盖图书的实物、内容和版权的所有信息特征;生产数据确定为20 个元素,包括实物生产的物料、规格、成本以及电子书加工费用等,基本覆盖生产环节的所有流程;经营数据确定为30 个元素,包括发货册数、发行折扣、退货册数以及回款金额等,基本覆盖纸质图书和电子书的所有流通过程。
根据出版资源的产生过程,采用两种采集方式,一种为人工录入(上传),一种为数据接口。人工录入主要针对初始数据(例如图书元数据),由数据产生的部门直接在智汇系统录入。数据接口针对跨平台或者跨系统的数据,实现不同平台或者系统数据的同步更新。集团根据下属出版单位现有工具软件的实际使用情况,设计开发数据接口,不同平台或系统间的数据交换采用“国际标准书号(International Standard Book Number ,英文简称ISBN)+印次”作为传输字段,通过这个唯一的字段值确保数据的成功同步。数据接口有智汇系统与云舒平台之间的传输接口,以实现部分图书元数据与PDF 文档的传输,以及智汇系统与ERP 管理系统或者复旦天翼信息管理系统的传输接口,以同步生产、经营数据。
规范是出版资源整合中最重要的问题,也是出版资源多次开发利用的前提和基础。出版资源的规范化有助于提高资源一致性和完整性,节约存储空间,提高检索效率。[4]因此在项目的实施过程中,世纪集团建立并完善了元数据规范、图书辅文规范、文档规范以及标引规范等。
(1)完善元数据规范,准确描述图书特征
元数据指对信息资源进行描述、解释或使信息资源更易于被检索、利用及管理的结构化信息,通过它可以准确唯一地指向元数据所描述的作品或者对象。[5]162完整的元数据信息能够唯一标识图书,方便查询,促进数据交换与处理,提高资源管理开发效率,也便于资源的长期保存。[5]163-165在项目实施过程中,世纪集团一方面对下属出版单位现有元数据元素进行大力扩充,增加出版单位子部门、读者对象、汉语词表主题词、普通关键词、学科关键词、上架建议以及CIP 核字号等元数据,以便更准确地描述图书特征。另一方面对于部分没有应用价值的元数据元素进行优化,例如取消图书种次号,既提高了ISBN 自动验证的准确性,又便于跨平台的数据传输。
(2)调整图书辅文规范,服务更多场景
图书辅文指图书正文的辅助文字,其功能在于指导购买和阅读,方便图书检索等,[6]包括目录、序跋、凡例、注释、附录、作者介绍、内容简介、参考文献、后记、索引以及编辑推荐语等。按照图书辅文的主要功能,可以将其分为识别性、介绍性、说明性、检索性以及参考性辅文等。[7]出版单位通常将图书辅文信息与元数据合并处理,这种做法的好处是能够提高采集效率,但是利用场景仅限于图书介绍,无法发挥更大作用。随着融合出版的发展,图书辅文的作用进一步增强,例如通过知识关联可建立更加完善的图书导航与推荐系统,为读者提供更多的图书内容比较以辅助购买决策等。世纪集团采取了根据图书辅文的类型分别确定规范。识别性辅文(例如书名、作者、书号、定价等)多数已经包含在元数据中,参考性辅文中的注释一般与正文排版在一起,这些图书辅文无需处理。其他类型的图书辅文均按照其种类采集,例如“图书前言”“编写说明”“后记”等。
(3)确立文档规范,方便多次加工
图书电子文档的类型主要有PDF、XML和ePub 等,其中PDF 文档又分为高精度和低精度两种,高精度PDF 文档用途以印刷和内容深加工为主,低精度PDF 文档用途以电子书加工和试读样张抽取为主。XML 文档利用XML 标识语言描述电子书内容。ePub 文档主要以XML 文档为内核,能够根据阅读终端设备自适应排版和呈现数字内容。融合出版产品的应用场景丰富,每个图书文档都可能根据不同的应用场景重新加工,例如结构化处理、多媒体加工或者内容重组等。由于XML格式文档要求与ePub 格式文档基本相同,因此项目实施过程中的文档规范主要针对ePub格式和PDF 格式文档制定,适应不同场景的文档再加工以这两种格式文档为基础。ePub格式文档综合差错率符合图书质量标准,目录链接跳转正确,图表符合排版规范,脚注、篇后注和书后注等链接跳转准确等;PDF 文档要求部件完整、支持检索与复制、书签准确跳转等。
(4)建立内容标引规范,打造个性化知识体系
标引是分类和关联的基础,[8]目的在于揭示内容特征,集中同类内容,区分不同内容,为相关内容建立联系。[9]世纪集团将标引分为元数据标引、知识标引和版权信息标引。其中元数据标引在元数据录入过程中自动生成,规范与元数据录入规范一致。知识标引分为主题词标引、关键词标引和知识元标引,主题词标引着眼于检索,关键词标引侧重表达文献主题,知识元标引系对主题词进行管理。版权信息标引可反映作品的版权信息,包括权利人、许可方式、权利项、授权地区以及语种等。根据知识标引和版权信息标引的特征,拟定相应的规范。知识标引规范要求主题词准确表达概念含义,能被人们普遍接受;关键词遵从《学术出版规范 关键词编写规则》(CY/T 173—2019),能够准确并充分揭示主题内容,避免遗漏重要的可检索内容;知识元分类准确,能够反映所属类别的特征和属性。版权信息标引要求服从融合出版需要,以便作品的多元化利用。
流程优化的目的在于简化部门之间的沟通,消除冗余环节;提高工作质量,确保规范的准确执行;降低时间与人力成本,提高出版单位整体运营效率。世纪集团结合下属出版单位原有流程与智汇系统操作规范,建立并完善了数据采集流程、文档采集流程以及资源管理流程等,确保出版资源整合科学、高效、合理。
(1)数据采集流程
数据采集流程涵盖图书信息从产生到完成的每一个环节,是项目实施过程中最复杂、参与角色最多的流程,所以流程设计中一方面要坚持全局优化、减少审批的原则,另一方面要坚持流程节点之间的制约和监督,确保数据的准确与安全。在实际操作过程中,还要尽可能减少人工干预。整个数据采集流程包括采集、审核和发布三个节点。数据采集前置至出版单位的编辑部门,即编辑直接在智汇系统根据元数据和图书辅文规范完成。数据审核和发布由世纪网络公司完成,坚持“日落法则”(当日事当日完成),[10]确保当日产生的数据当日完成审核和发布。数据采集流程优化后,数据采集效率大幅度提升,推动营销活动前置,产品尚未入库就可开始相关的营销活动,有利于实现产品上市与销售推广的最佳组合,提高占据市场的效率。[11]
(2)文档采集流程
文档采集流程从付印清样完成后开始。此时书稿已经完成三审三校,内容出错可能性较低,修改次数和范围有限,因此文档采集流程设计的重点在于一要确保付印文档属于最终稿,二要确保适应不同场景需求的文档,例如ePub 文档、封面或者XML 文档等,应收尽收。基于此,在项目实施过程中,文档采集流程设计三个环节,即上传、同步和再加工。上传由排版公司与世纪网络公司承担:排版公司在制作高精度PDF 文档的同时,制作书签,之后将其与自动生成的低精度PDF 文档、四封文件(即封面、书脊、勒口与封底)上传至云舒平台(供印刷使用);世纪网络公司负责适应不同场景需求的文档的上传。同步通过云舒平台与智汇系统之间的数据接口自动实现。再加工由世纪网络公司直接操作或者委托外包公司完成。
(3)资源管理流程
资源管理流程分为权限管理和使用审核两部分。权限管理围绕角色展开,角色根据系统工作流程中的环节设置,每个角色设置定制化的权限,根据职能分工分配给不同用户,一个用户可以分配一个角色,也可以分配多个角色。通过角色定制,限制了用户对系统的使用范围,确保了系统使用和管理的安全性。权限包括平台级和应用级权限。前者针对角色权限配置,后者针对具体操作配置。使用审核根据权限制约原则和职能分工设置,不同角色各司其职,彼此制约,保证资源采集的规范性、准确性和资源利用的安全性。例如,采集角色和审核角色分离,采集阶段有误,审核角色马上可以纠正;下载角色和审批角色分置,超范围文档(如高精度PDF)下载,审批角色可以及时阻止。
出版资源的组织在某种程度上也可以看作一种知识关联。围绕图书内容,将不同的图书形态(文本、音频以及视频等)、周边内容(新闻、评论、自媒体内容以及考试资源等)以及其他有知识关联的图书按照一定规则组织,形成比较完整的知识体系,实现一书一档,即由一本书可以找到所有与其相关的资源。这样既有利于出版资源的有效管理,也便于开发增值服务,提高知识转化效率。[12]实施过程采用两种管理方式,一是分类,二是关联设置。
根据世纪集团现有出版资源,采取多种分类方式。①按照表现形式分类,例如图书、期刊、自媒体、其他等;②按照内容主题分类,例如中图法分类、论著分类、知识点分类等;③按照所属部门分类,例如国际编辑部、哲学社科编辑部等;④按照内容形式分类,例如文本、音频、视频、图片、多媒体等;⑤按照关键词分类,例如知识关联、融合出版、工艺技法等;⑥按照资源格式分类,例如word、txt、XML、PDF、ePub 等。多种分类方式可从不同维度呈现资源的属性。
关联设置采取手动关联和自动关联两种方法。手动关联可以在资源采集过程中操作,也可以在资源发布后操作,还可以由不同角色操作。这样既有助于资源的增加与更新,随时发现随时采集,也可以通过不同视角发现更多有价值的资源。自动关联通过知识标引的匹配实现,例如对比关键词和主题词在不同作品中出现的次数,判断它们之间可能存在的关联关系与关联强度。[13]关联设置一方面有利于通过关联的定位与导航作用,提高出版物推荐的精准程度,另一方面有利于编辑从中发现新的选题。
囿于世纪集团自身条件和现有资源,此次出版资源整合方案主要针对内部现有图书资源,作用局限于营销支持、决策参考和融合出版的部分功能,还存在社会资源整合不足、结构化加工欠缺等问题,未能完全满足融合出版的需求。
从融合出版发展的趋势来看,社会资源的整合和图书碎片化内容的处理一样具有极大的应用价值。图书相关的社会资源包括各种新闻资讯、自媒体作品、图书评论、选题资源、旅游文化资源、历史文化资源以及现实的社会文化资源。通过大数据技术对这些资源的分析,能够为融合出版的发展提供更大助力。一是有助于判断社会关注的热点、专业领域的发展趋势和先进成果,及时发现新的选题线索,抢占市场先机;二是有助于判断出版物的市场潜力,降低经营风险;三是发现营销过程中的社会反馈,例如产品问题、内容争议或者作品侵权等。世纪集团此次出版资源整合未纳入社会资源,今后有必要对社会资源进行结构化处理,与现有出版资源建立多种知识关联关系。
所谓结构化加工指利用技术手段揭示和描述内容资源的体例结构和属性。图书的结构化加工简单理解就是拆分篇章节,提取不同层级的属性元数据,揭示内容的结构和组织方式。[14]结构化加工后的数据能够支持各种场景下的内容应用服务,有助于提高来自搜索引擎的访问量,有助于数字内容的多元化发布,还有助于通过内容重组策划新的选题。世纪集团此次出版资源整合未涉足结构化处理,未来可以考虑对图书内容进行结构化处理,在丰富智汇系统标引工具的基础上,通过知识关联的构建形成完整的知识体系。
资源采集效率低、内部沟通成本高以及资源质量难以保证等,是出版单位进行出版资源整合存在的普遍问题。世纪集团针对这几个问题,结合下属出版单位各类管理软件系统使用现状,围绕智汇系统展开部署,改造原有流程,构建了完整的出版资源利用与管理体系。这个体系既保证了资源的质量,又提高了资源的利用效率,对国内同行开展出版资源整合工作具有一定的参考价值。未来,世纪集团将进一步整合社会资源,对图书内容进行结构化处理,更好地满足融合出版的需求。