童力军
面向知识服务的《辞海》数字化之路
童力军
《辞海》的数字化之路包括数字化目标的设定、内容数据库建设、数字出版云平台建设。通过“三步走”战略,完成《辞海》数字化转型,从而为用户提供动态化、多维度、多媒体、立体式的知识内容,提高用户的参与度、关注度、满意度,进一步拓展辞海品牌在网络空间的传播力和影响力。关键词:《辞海》;数字化;数据库;出版云平台
《辞海》的数字化之路起步于20世纪90年代中期,即《辞海》(第五版)编纂出版工作之时,当时的数字化不仅仅是改铅字排版为电脑排版,为此专门制作了《辞海》字库,更重要的是利用计算机辅助工具,协助排序、查核参见和制作索引等工作。这些工作如使用传统人工方式,费时费力且易出差错,而运用计算机技术,效率非常高,“仅用三个小时就完成了八万多个百科条目的排序工作”[1]382。本世纪初,根据第五版编纂出版过程中利用计算机的工作经验,进一步完善了各种计算机辅助工具,并在此基础上开发编制了“上海辞书出版社工具书查询系统”,它以简单直观的窗口界面,提供《辞海》以及上海辞书出版社出版的一大批优秀工具书的全文检索功能,成为第六版编纂出版工作中不可或缺的辅助工具。
《辞海》(第六版)除了在编纂出版过程中不断尝试各种数字化手段外,在数字化产品形态方面的重大突破是于2010年3月30日推出了第一款自主开发设计的数字阅读终端产品——辞海悦读器。它不仅内置了《辞海》(第六版)的内容和两百种优秀图书,而且提出了一系列创新理念:
第一,以提供内容为根本——除了阅读功能以外,还要满足用户检索、批注等要求;不断提供众多优质内容资源,并通过无线上网实现上传下载。
第二,以技术创新为先导——使用最新的触摸手写屏幕;自主研发了电子书标准格式Epub,率先采用了三重密匙的DRM版权保护机制。
第三,以质量第一为要求——在高效率的内容转档的基础上对所有内容进行人工校对,要求同纸质出版物一样,差错率控制在万分之一以下。
第四,以打通产业链为关键——旨在实现内容与终端的完美结合,在搭建优质内容资源平台(如内容转档平台、资源推送平台、版权保护平台等)的基础上,建立合理的利益分配机制,形成内容提供企业、技术开发企业、制造企业、销售企业的联合。[1]384
后来因为各种原因,最终未能成功实现商业化运作,但这是《辞海》第一个真正的数字化产品,其经验教训为后来者提供了重要借鉴。
今天,互联网和移动互联网正加速普及,在线检索、在线学习、在线交互已经成为人们获取知识的普遍方式。网络上海量的音频、视频、多维动态模拟都是传统纸质工具书所不能承载的。各种在线工具书成为用户最常用的查询和参考依据,但是现有的在线工具书在知识信息的真实性、权威性乃至意识形态导向等方面都存在问题,因而用户迫切需要能提供权威、准确信息的在线知识服务平台。作为具有巨大影响力的综合性词典,《辞海》理应、也能够担当起这一重任。所以,当今的《辞海》应该走数字化之路,走传统出版与新兴出版融合之路,用今天时髦的词汇,就是“互联网+《辞海》”。
《辞海》数字化的目标是建立面向知识服务的《辞海》数字出版云平台,实现《辞海》内容从编纂、管理、发布、运营等全流程的网络化和数字化,并建立起全产业链的工具书数字出版服务平台,建成权威的汉语基础知识服务平台,以适应用户在互联网和移动互联网上方便、快捷、准确获取科学、权威知识的迫切需求。简而言之,《辞海》数字化不仅是其内容的数字化,而且其编纂方式、产品形态、传播方式都要数字化,只有通过内容编纂、知识管理、应用发布、运营服务等流程的数字化和网络化,才能实现《辞海》编纂方式的变革、产品形态的革命和传播方式的升级,最终达到为用户提供知识服务的目标。具体如下:
一是编纂方式的变革。第一版《辞海》实行闭门编纂,由当时中华书局编辑部不到二十位编辑承担,他们每天从各种书籍和报刊上去收集词汇并撰写释文,前后花费了二十多年时间。20世纪50年代启动第二版编纂时,改为开门编纂,吸纳全国各学科领域专家、学者参与编纂。此后,全国众多一流专家、学者参与了各版《辞海》的修订编纂工作。这是《辞海》权威性、准确性的根本保障。但是随着互联网时代到来,知识更新的加快,各种维基式在线百科产品的崛起,传统的十年一修订的模式已不适应时代的需要,迫切需要我们在编纂方式上的突破,由传统的集中开门编纂变为日常的实时开放编纂,更重要的是让每一个使用《辞海》的用户都可参与到编纂工作中来,把专家、学者编纂的专业性和大众参与的开放性紧密结合起来。
二是产品形态的革命。主要是实现一次采编制作,多平台、多产品发布,即突破传统的以纸为介质的彩图本、缩印本和普及本等产品形态,顺应信息化时代数字出版潮流,基于目前互联网、移动互联网环境,以个人电脑、移动终端、电子阅读器等为载体,通过网络版、手机版、微信版、电子版,以及封装数据库等各种产品形式展现给用户。伴随产品形态的革命而来的是内容的突破,将新增音频、视频等多媒体资源,构建起一个有声、有色、有形的立体百科。
三是传播方式的升级。以前用户要使用《辞海》必须要购买或借阅,历次修订版《辞海》的总销量达到630万套,学科分卷本的总销量更是达到了2200万册,2009年出版的第六版的销量也超过40万套——这在我国的大型图书中是绝无仅有的,但是传统纸质版因销售渠道和价格等因素,还是限制了很多用户拥有和使用这部权威工具书。数字化的在线《辞海》将因其便捷、部分内容免费且能及时更新等特点而惠及中国最广大的用户。
以上是从出版社角度而言的《辞海》数字化路径。从用户角度从发,《辞海》数字化的最终产品形态,可概括为三句话:有声、有色、有形的多媒体《辞海》,海纳百川却又实时更新的《辞海》,随时随地可查询的《辞海》。
所谓有声、有色、有形的多媒体《辞海》,就是从形式上讲,数字化《辞海》将在纸质版原有的准确,精炼释文的基础上,结合各种音频、图像、视频、动画,甚至三维模型等,构建起一个有声、有色、有形的立体百科,突破传统纸质版仅能阅读文字和少量图片的局限,给用户更丰富的阅读体验。
所谓海纳百川却又实时更新的《辞海》,就是从内容上讲,数字化《辞海》不仅要继承纸质版《辞海》释文准确可靠的特点(即查得准),还应根据网络使用的需要和网络容量不受限制的特性,大幅度地扩展词条,确保用户查得率高(即查得全),同时还需要及时改错纠错,及时增补新词条,及时补充完善新义项,及时充实多媒体内容和深度学习相关的链接(即更新及时)等等。
所谓随时随地可查询的《辞海》,就是从应用上讲,数字化《辞海》将不仅有PC网络版,而且还将以手机版或微信版甚至汉字输入法等形式出现,使得它可以很好地满足用户在不同场景的便捷化使用。比如,用户在阅读一篇文献,或者在街头看见陌生词语需要查阅时,可以直接使用手机拍照即可查阅。又比如,用户在与友人聊天,或上网浏览时,可以通过触摸或鼠标选词的方式,直接查阅《辞海》,甚至可以直接问“辞海机器人”。
《辞海》历版数据库首页
《辞海》要实现数字化转型,最为重要的是内容数据库建设,因为这是体现《辞海》使用价值的关键所在。数据库储存用户最为需要的各学科、各专业领域的大量知识、信息,而为了保证数据库内容的政治性、思想性、科学性、知识性、正确性,编辑、校对人员对全部内容数据都必须认真审读、仔细加工、全面校核。同时,为了满足知识服务的需要,还要对诸多入库数据的体例进行规范,对它们的属性一一予以标引。这些工作量大面广,需要出版专业技术人员付出大量艰辛的智力和体力劳动。
为了服务《辞海》(第七版)编纂出版工作,同时为用户提供知识服务,《辞海》数字化转型中要建设七大核心内容数据库,包括《辞海》历版数据库(第一至第六版)、《大辞海》数据库、语文词典数据库、百科辞典数据库、图片数据库、多媒体数据库、标准数据库。七大数据库总字数约5亿。辞海编纂处和上海辞书出版社的专业技术人员多年来在内容数据库建设方面投入了大量精力和时间,目前尚只能说初见成效,建成了《辞海》历版数据库(第一至第六版)和《大辞海》数据库。七大核心数据库简要介绍如下:
《大辞海》数据库首页
一是《辞海》历版数据库。它收录从1936年至2009年六个版本八个版别(含第三版和第四版分卷本)1.2亿字的内容,不仅提供词条和全文检索、精确和模糊检索、多条件复合检索等功能,以及版本、学科、专题导航,而且还提供任意两版之间相同词头释文的比较、词条收藏、分享和纠错反馈等功能。
二是《大辞海》数据库。《大辞海》是以《辞海》为基础编纂的特大型综合性辞典。项目的编纂出版持续了17年时间,至2015年全部出齐,计38卷42册,条目数约28.5万条,字数5000多万字。它以学科分类,不仅充分反映中国政治、经济、文化和科学技术等各个领域的历史、现状,同时还介绍世界各国的知识和信息,展现科学技术迅猛发展的新面貌。全书融古今、中外、语文和百科知识于一体,内容丰富,资料可靠。它的出版,填补了我国特大型综合性辞典的空白。《大辞海》数据库收录《大辞海》38卷的全部内容,通过结构化的存储管理,不仅实现词条分卷分类展示、词条检索与全文检索等多种浏览、检索方式,还提供PDF溯源、词条收藏、分享和纠错反馈等功能。
三是图片数据库和多媒体数据库。数字化《辞海》不是纸质版内容的简单数字化,而是在纸质版内容的基础上,结合各种音频、视频、动画,甚至三维模型等,构建一个立体百科,同时要实现全文语音朗读和词条语音搜索。
四是标准数据库。为了让编纂者从因兼顾内容和形式而造成效率低下且易出错的困境中解放出来,进一步提升词条内容质量,必须建立一系列的标准数据库,为《辞海》编纂者在撰写过程中和编辑在审稿过程中提供帮助。这些主要有中国历史纪年、中国古今地名、组织机构名称、人名译名等十几个标准数据库。
五是语文词典数据库和百科辞典数据库。为了提高检得率,提升用户体验,数字化《辞海》平台上需要搭建更丰富的辞典数据资源,为此将选取上海辞书出版社最具代表性的45部1.2亿字的语文词典和130部超过2亿字的百科辞典,把它们结构化、碎片化,建成大型数据库,作为数字化《辞海》的基础数据。
数字出版的特征之一是业务活动的平台化,“数字出版产品及服务的生产、提供、消费直接通过数字出版平台展开,数字出版产业的发展对平台的依赖程度高”。[2]《辞海》的数字化之路自然还包括各种平台的建设。我们计划构建由数字资源管理系统、网络协同编纂系统、多渠道多终端发布系统、在线知识服务系统等四大系统所组成的《辞海》数字出版云平台。
数字资源管理系统对收集整理的原始内容资源、数字化加工的各类资源、建成的数字资源库等进行统一存储和管理,不仅包括出版的最终内容产品,还包括在生产过程中产生的过程数据。
网络协同编纂系统是基于XML技术,其最大特点是实现内容的格式化编纂。整个编纂过程是出版社在编纂平台上制定各种类型条目的体例,作者按照既定的体例在编纂平台上撰写条目内容、建立参见链接等,编辑在编纂平台上进行条目的审核、校对工作。
XML编辑工具具有体例规范检查、拼写检查、交叉引用、评论注释、条目版本比对、条目字数控制、条目学科分布比例控制、图片与内容的关联推荐、名词术语规范检查、敏感词检测、诚信检测、相似或重复内容提示等功能。同时,协同编纂平台还具有丰富的内容管理功能,如项目流程管理和数据统计等。项目流程管理方面会充分考虑《辞海》编纂过程中的各种情况:制定编纂流程、建立编纂任务、用户权限控制、分配条目、指定或变更条目负责人、监管条目编纂进度,等等。数据统计方面提供各学科条目比例、修改率、错误率等。
协同编纂系统界面
该平台的建立,将大大提高《辞海》编纂的效率和质量,不过因为开发时间周期的关系,作者在这一版中将无法使用,但后期的编辑将在平台上进行。该系统目前已上线测试。
多渠道多终端发布系统以“一次制作,多元发布”为指导思想,即根据用户的需求快速形成不同介质、不同手段的产品和服务,从而最大限度地实现资源的充分利用,降低出版成本,满足不同用户需求。该系统主要解决发布各种形态产品的问题。
在线知识服务系统将实现人与权威知识的联接。所谓知识服务是以信息和知识的搜寻、组织、分析、重组为基础,根据用户的问题和环境,融入用户解决问题的全过程中,提供能有效支持知识应用和知识创新的服务。数字化《辞海》将从单纯满足用户的知识查检需求向全方位知识服务转变。由于《辞海》涵盖所有学科,为此我们将建立以《辞海》为主干的人类知识谱系,也就是说,如果用户想获取各个学科的基础知识,他都能在“《辞海》在线知识服务系统”上获得。
《辞海》数字化转型是一个重大工程,不可能一蹴而就。采取“三步走”战略是比较符合实际的。第一步是至2019年,完成上面所说的建设四大系统和七大数据库的任务,初步建成不列颠百科式的《辞海》网络版(包括网页版、App版、微信版等),不仅词条由13万条增加到50万条,而且更重要的是新增大量多媒体内容;第二步是至2024年,建一个维基百科式的《辞海》网络版,即开放编纂、专家审核的发布系统,基础内容大大突破《辞海》(第七版),把在线知识服务系统建设成为融古今中外各种知识于一体的宝库,使之真正成为人类知识的海洋,具体目标是词条达到500万条;第三步是2029年纸质版《辞海》(第八版)将完全从在线数据库中抽取约13万个条目,经编辑在较短时间内加工而成,不需要像现在这样需提前5年开始编纂。“三步走”战略的实现,将宣告《辞海》数字化转型的最终完成。
当然,要实现这个目标,仅靠《辞海》现有的作者和编辑队伍,哪怕是借助网络协同编纂工具系统也是无法实现的。这就需要《辞海》在编纂方式上实现又一次的突破,第一版是闭门编纂,第二至第七版是开门编纂,以后将是开放编纂,让每一个使用《辞海》的用户参与到编纂工作中来。当然,我们在借鉴开放式百科编纂方式的同时,仍然需要加强专家和编辑的审核,仍然会有三审制,仍然需要发扬一丝不苟、字斟句酌、作风严谨的“辞海精神”,因为权威性是《辞海》的核心竞争力。最终目标是要把专家、学者编纂的权威性与大众参与的开放性、现代网络拥有的包容性和多样性结合起来。
《辞海》数字化转型是系统工程,仅靠辞海编辑委员会、辞海编纂处和上海辞书出版社之力是很难完美实现的,还需要借助其他单位的合作。因此,推进《辞海》数字化转型的思路包括四个方面。
1. 技术层面:与国内大型互联网企业合作,以保持在技术上的先进性。
2. 资本层面:成立合资公司(辞海数字传媒有限公司)来研发和运营数字化《辞海》。
3. 产品层面:争取与互联网巨头的各种产品进行捆绑,充分利用其传播渠道的巨大影响力来达成我们广泛传播的公益性目标。
4. 内容层面:采用PUGC模式,即依靠专业用户生产内容,最终使得在线《辞海》的内容在广度和深度上均有别于传统纸质版。我们将采用签约方式来保持强大的专业作者队伍,以授权方式争取多媒体资源,以一丝不苟、字斟句酌、作风严谨的“辞海精神”来编辑出版数字化《辞海》。这不仅可以保证数字化《辞海》内容的准确性与权威性,而且可以保证内容更新及时,从而在网络百科中树立辞海新的品牌形象。
总之,我们希望通过实施《辞海》数字化工程,为用户提供动态化、多维度、多媒体、立体式的知识内容,提高用户的参与度、关注度、满意度,从而进一步拓展辞海这个品牌在网络空间的传播力和影响力,最终取得社会效益和经济效益的双丰收。
[1] 徐庆凯,秦振庭. 辞海论[M].上海:上海辞书出版社,2015.
[2] 国家新闻出版广电总局出版专业资格考试办公室.数字出版基础(2015版)[M].北京:电子工业出版社,2015.
(作者单位:上海辞书出版社)