张新华 赵婧
(张新华,湖南出版投资控股集团有限公司博士后、北京大学新闻与传播学博士后、北京印刷学院新闻出版学院副教授;赵婧,人民出版社编辑)
出版物所承载的知识之间存在着普遍的、多元的、复杂的联系。在数字化环境下,利用一定的技术手段把相互关联的出版物及其知识内容链接起来,就构成了出版物知识网络。
对于出版社来说,构建出版物知识网络不仅是顺应数字环境下知识消费需求的有效措施,也是提升其数字出版产业竞争优势的必然选择。
中美两国有关机构的研究表明,数字时代知识消费者的需求和行为相对过去发生了很大变化:知识获取上,需要无缝链接和自助服务;知识内容上,需要从简单文献获取转移到知识发现,甚至支持知识创新;知识检索上,需要一站式、个性化、全文化、可下载;成本上,需要最快、最省力。传统出版业通过书、刊等出版物向社会传播知识,一本(套、系列)书、一份期刊都是一个体系完整而又独立的知识集合体。在一种书刊的内部,知识之间通过“目录”、“索引”等方式建立起粗略的结构链接和字词链接;而书刊与书刊之间的知识关联,由于受物理载体的局限,除了运用“注释”、“参考文献”等有限的技术手段表明知识关联外,知识之间的链接无法建立起来。为了打破书刊知识的这种片段性、孤立性存在方式,历史上的编辑家和出版家们发明了丛书、类书、套书、大百科全书等图书体裁,主要通过分类、集合等方式建立起出版物知识的链接。但这些链接所反映的知识之间的关联比较单一、肤浅、片面和有限,根本无法满足数字环境下读者对知识消费的需要。可见,为顺应知识消费方式的转变,出版社需要改变传统的知识提供和知识服务模式,建立起规模庞大的、功能健全的、相互之间可互通互联的知识网络。
相对于图书馆界和信息搜索行业来说,出版行业的知识网络建设远远落后。图书馆界在情报学理论的指引下,在上世纪后半期就开始了数字图书馆建设,努力构建囊括人类所有现有文献知识在内的知识网络;以谷歌和百度为代表的新兴信息搜索服务公司,先后推出了基于知识关联的学术搜索和知识图谱功能。近年来,数字图书馆和搜索型IT公司依靠强大的知识网络提供便捷优质的服务而获得高额的经济回报。而在绝大部分出版社,基于出版物的知识网络还没有建立起来。在数字化转型中,一些出版社虽然尝试提供电子书刊、数据库等数字化产品,但在知识组织和产品开发上仍拘泥于传统的编辑出版方式,或改变知识载体和传播方式,或改变知识的存在单元,而对传统以(书)本、(刊)期、(论文)篇等为存在单元的知识内部及相互之间深入、本质的关联缺乏有效关注。这种知识网络建设的落后局面使出版社在与其他企业的竞争中陷入被动局面,大部分出版社沦落为数字出版产业链上内容提供商的角色,在商业博弈中往往处于大型图书馆和谷歌、百度等公司的下风,无法体现出版社在知识生产和传播中的先导地位,出版社的经济利益也一再受损。所以,通过构建出版物知识网络,占据数字出版产业链的高端位置,是传统出版社参与数字出版产业竞争、提高竞争优势的必要途径。
在知识网络结构中,知识节点是由在认识上可以相对独立存在的各种知识单体形态,即在认识上具有独立性的知识元、知识单元构成。传统以(书)本、(刊)期为基本物理单位的出版物是一个由多层次知识单元构成的知识集合体,其知识内容具有相对的完整性、系统性和独立性。但从载体形式特点和内容组织看,单个出版物的知识单元可分为三个基本层次:出版物、篇章和知识元。(1)出版物。如一本书、一期期刊、一份报纸等。(2)篇章。一个出版物的内容由数量丰富、颗粒更小的知识单元组成,其中,书籍内容的基本构成单元是章节,期刊的基本构成单元是单篇的文章;出版物内部的这些篇章也是相对独立的知识单元。(3)知识元。当知识单元被切分到“不可再分割的具有完备知识表达”的程度时,就达到了出版物知识的最小单元,即知识元。知识元“是构成知识结构的最小独立单元”,用来表示一个个针对特定问题的解决方案。根据主题或表达的内容,知识元又可分为三种类型:理论与方法型知识元、事实型知识元和数值型知识元。在如上三个层次的知识单元中,知识元是最基本、最活跃的知识体,知识元之间的排列和组合方式的变化是新知识生产的一个重要途径。
由于出版物具有物质和精神双重属性,出版物的三层知识网络节点也具有内在和外在双重属性。内在属性指出版物内容知识的本质属性,反映知识与它所描述的客观事物的关系,从这个角度也可将出版物中的知识节点称为“概念”、“事物”、“规律”、“规则”、“学科”等。外在属性是由于知识内容的表达、识别、传播和版权归属等需要所附带的知识,包括名称(标题)、作者、出版者、出版时间、出版地区(网址)、类型、载体形式等信息,这些信息实际上组成了独立知识节点的“身份识别系统”,反映它所对应的知识内容的客观存在性,是知识的知识,在数据库中被称为关于知识的“元数据”。
知识关联是指构成知识网络的知识节点之间的联系,即各相关节点间形成意义系统的联系。出版知识网络中的知识关联是指出版物的知识单元(包括出版物,出版物中的篇章,知识元、句子、词语等知识内容)之间存在的各种联系的总和。“任 何一种知识的属性都可能作为一种关联属性构成知识网络”。由于出版物知识节点具有双重属性,出版物知识单元之间的关联也包括内在属性关联和外在属性关联两种。(1)出版物知识的内在属性关联是知识所描述的事物之间相互内在的联系性决定的,这种内在的联系一般表现为知识单元之间具有的同一、隶属和相关等三种属性的关联。同一性关联指知识节点间具有的某种相同性质所形成的关联,是知识节点继承性的表现;它导致具有相同性质的知识节点以同一性构成联系并相聚形成学科、专业的知识单元集合、网络。隶属性关联指某一知识单元或知识单元集合隶属于某一概念、范畴和类别的逻辑关系;它反映了知识单元之间一般和个别、总体和部分的内在关系。相关性关联是指在同一、隶属关系之外知识单元间所具有的相互依存、相互渗透、相互制约、相互作用、互为中介的关系,一般是指相反、相对、因果、引用、应用、影响等各种关系。(2)出版物知识的外在属性关联就是知识的外在属性之间的各种联系,如学术论文作者之间的联系、某学术问题研究的时间和地区分布等。通常来说,外在属性关系简单明确,很容易被发现识别并加以利用;而内在属性关系复杂多样,动态性较强,有的知识关系只能由专家发现和建立。
知识链接是指利用数字技术手段,将具有内在或外在属性关联的出版物知识单元链接起来,构成序列化或结构化的知识网络的一种知识组织方式。在出版物所构建的知识世界里,知识之间的关联既有显性的,也有隐性的;通过知识链接,可以使隐性关联显性化,实现知识之间的互联互通,同时还可以发现新的知识。在当下的信息技术条件下,不同知识单元联系在一起的技术和方法有:传统的目录法、索引法、引用法,现代的超文本链接、主题网关、参考链接等。按照知识单元从大到小来划分,出版物知识单元之间的链接形式可分为基于出版物单元的知识链接(也称为参考文献链接或引文链接)、基于信息单元的知识链接(也称为知识属性链接)和基于知识元的知识链接(也称为知识逻辑链接或语义链接)。
从知识节点的颗粒度、属性和链接方式看,目前国内由出版社主导或参与建设的出版物知识网络主要有三类:元数据知识网络、全文知识网络和知识元网络,它们各有特点。
元数据是规定出版物外在属性的附属性知识,由这些知识集合并按照一定需要建立起链接关系的知识体系即是元数据知识网络。该类知识网络源自出版社纸质版的图书目录或期刊题录等,伴随着网络发行渠道的兴起而产生。在互联网上读者可以通过它方便地查阅到其中的图书信息及图书之间的外部属性联系,如书刊名、(期刊中文章)标题、作者、出版时间、学科分类、定价等;但通过这些信息还不能链接到它所指向的知识内容本身。目前一些出版社已实现了此类知识网络的开发和利用,其中最具代表性的是中国出版集团公司于2006年开始建设的“中国可供书目数据库”。到2011年,该库收入书目数据200多万条,覆盖了90%的出版社的80%以上的品种;实现了全国书目信息动态采集、更新、发布和服务,具备浏览与检索的全部功能,可以及时向市场传播图书产品信息,更新产品可供应的状态。元数据知识网络虽然还没有涉及出版物的知识内容,但也打破了出版物孤立、静止的存在状态,使传统出版物借助该知识网络实现了传播范围的扩大和生命周期的延伸。
出版社为了实现知识内容的多渠道发布、多介质传播,以整本出版物(包含全部的知识内容及附属信息)或出版物的篇章为节点构建全文知识网络,实现了知识元数据和知识内容本身的同步网络传播。此类知识网络是目前国内出版社建设的主要形式。例如,人民交通出版社研发的“中国交通知识服务数字出版平台”,到2012年底已经上线该社电子书11798种,外购电子资源45819种;上线交通专业科技词典类工具书68种,交通标准1584种;形成交通标准、工具书、史书、教材教辅等6大交通专业数据库。在功能上,可以通过关键词跨库检索、全文阅读和下载。此外,有代表性的全文知识网络还有科学出版社的科学文库、社会科学文献出版社的皮书数据库等。该类知识网络实现了出版物内容与外部属性信息之间的关联和链接,也打破了传统出版物以本(册)为单元的传播方式,使知识节点细化到篇章层次。但是,构成知识节点的知识单元颗粒仍然太大,知识链接主要依据知识外部属性之间的关联发出,知识之间内在的本质联系还没有被挖掘出来。
知识元网络就是以知识元为基本知识节点所构成的知识体系,其中,知识元之间的关联是通过语义链接实现的。知识元语义链接表示的是知识之间内在属性的逻辑关联(也称为语义关联),在此基础上所构建的内容交互的逻辑知识网络能还原知识关联的本来面目;它有益于消除信息孤岛,提升知识自由集成服务能力,是用户挖掘知识、组合知识、利用知识和创新知识的有力工具。知识元网络对用户的知识利用和知识创新的价值超过其他类型的知识网络,是知识网络建设的最高层次,但也是建设难度最大的一类。目前可见的一个知识元网络是“医学知识库”。它是由人民军医出版社、解放军医学图书馆联合研发的医学类专业知识网络,它抽取医学图书中的知识元并将其重组,进行结构形式上的归纳、选择、整理,以疾病为知识核心,包括疾病、药品、手术、辅助检查、循证证据、疾病研究进展、医保药品、手术图谱、临床操作规范等相关知识,并且通过这些知识之间的内在联系将其有机地结合起来。从知识节点及知识链接看,“医学知识库”以疾病及其相关领域的知识元为节点,主要通过库内知识超链接的方式,实现知识间的关联,知识获取的精准性和便捷性很高;但该库还是一个相对封闭的体系,库内知识元无法与外部知识进行链接;同时,其中的知识元及其链接都是预先设定的,不能根据用户需求生成新的知识元及其与其他知识间的链接。可见,“医学知识库”还是一个“入门级”的知识元网络。
人都聚集到了北坝两座山包间谷口处。迟恒惊慌失措赶到,不知道自己能做什么。狂泼的雨如同充满仇恨的怨妇,歇斯底里要用她的泪与呜咽去吞噬所有。他看见有人在架水泵、挖放泵的水洼,有人向坝堤外侧铺又长又宽的塑料布以作临时水渠,避免泄水冲涮砂质堤坝,迟恒赶紧过去帮着铺。很快,四台水泵开始抽吸库面积水往外吐。他从坝坡爬上来,水如蛇一样阴冷地已绕上脚根,不远处,魏昌龙蹲在坝旁一动不动死死盯着边线水位。迟恒刚想过去,突然想到极度紧张的人,很容易暴躁失控。
以上三类知识网络分别代表了我国出版物知识网络建设的基础阶段、过渡阶段和目标阶段的发展水平。由于这些知识网络的建设大多以单个出版社资源为基础,知识网络的规模普遍较小,知识网络内部的知识链接路径有限,不同的知识网络之间不能互联互通,既不利于读者们的知识利用,也无法充分实现出版物的知识价值。所以,在未来的数字化转型过程中,出版社需要以这三类知识网络为基础,继续提高知识网络的建设水平。
*该文受北京市教师基地(中国人民大学)2012研修项目支持。
注释:
① 文庭孝,刘晓英,刘进军. 知识关联的理论基础研究[J]. 图书馆,2010(4).
② 肖希明,黄连庆. 以需求为导向的数字信息资源开发[J]. 中国图书馆学报,2007(6).
③ Chaos. 百度疑似推出“知识图谱”功能,搜索结果百科全书化[EB/OL].百道网,2012-12-12.http://www.bookdao.com/article/56301/
④ 赵蓉英.论知识网络的结构[J].图书情报工作,2007(9).
⑤ 朱庆华.《知识元挖掘》评介[J].情报科学,2006(12).
⑥ 姜永常,杨宏岩,张丽波. 基于知识元的知识组织及其系统服务功能研究[J]. 情报理论与实践,2007(1).
⑦⑨赵蓉英. 论知识网络的结构[J]. 图书情报工作,2007(9).
⑧ 周晓英. 知识网络、知识链接和知识服务研究[J]. 情报资料工作,2010(2).
⑩ 该概念借鉴了情报学学者 姜永常的说法。参看姜永常.知识网络链接的理论基础与基本原则[J]. 图书馆,2012(2).
11 12 中国出版集团网站. 中国可供书目数据库[EB/OL]. http://www.cnpubg.com/digital/2011/1027/8908.shtml
13 中国知网医学知识库[EB/OL].http://pmmp.cnki.net/index.aspx