●刘 莎(武汉大学 信息管理学院,武汉 430072)
“长尾理论”是网络时代兴起的一种新理论,由美国人克里斯·安德森提出。“长尾理论”认为,由于成本和效率的影响,过去人们只能关注重要的人或重要的事,如果用正态分布曲线来描绘这些人或事,人们只能关注曲线的“头部”,而将处于曲线“尾部”、需要更多的精力和成本才能关注到的大多数人或事忽略。然而在网络时代,由于关注的成本大大降低,人们有可能以很低的成本关注正态分布曲线的“尾部”,关注“尾部”产生的总体效益甚至会超过“头部”。
“长尾理论”在百科全书编辑领域的意义,就是让每个人都成为网络百科全书的编撰者,将存在于每个人大脑中的知识积累起来,聚沙成塔,集腋成裘,形成一件辉煌的文化产品。从百科全书编撰的要求来说,需要掌握尽可能多的知识,并随时进行更新。但是在过去,由于人力、物力的种种限制,无法动员所有的专家都参与编撰工作,更无法动员全社会都来参与,也无法进行及时更新。互联网的普及为全社会都参与百科全书的编撰提供了可能。[1]
作为一种借助外力的新模式,“众包”以成本低、见效快等特点,已展现了无比广阔的发展前景。它以网络之同,求个体之异,因此,众包模式强调的是在网络的每个节点上,发挥草根个体的能动性和创造性。[2]
众包理论的一个典型应用就是维基百科。维基百科获得了内容贡献者的认同与归属感,而后者又自然成为了维基百科的代言人与传播工具。[3]按照维基百科的约定,它是一个百科知识的网上集合,是完全免费的。这种方法可以应用到一切与知识相关的领域。根据这种新型网络百科全书的特性,可以将其称为是一种全民参与的“协作型”网络百科全书。
网络百科是针对传统印刷型百科全书而言的,是指伴随着互联网技术、现代电子信息技术、信息存储技术的迅猛发展而诞生的一种新型工具书或者称之为新型信息组织模式。网络百科总体分为三大类:
(1) 传统纸质版百科全书的网络版。纸质百科(如《大英百科全书》) 和网络百科,一个号称“专业”,一个号称“草根”,各有优劣。我们既不能否认纸质百科具有网络百科无法比拟的权威性、专业性和系统性,也必须承认网络百科也有让纸质百科永远无法同步的新知识、检索速度和知识容量。两者的差别可以从撰写者(前者是精英式写作群体,后者是草根式写作群体)、涵盖的知识范围(前者具有系统性,但不能包罗万象;后者没有围墙,取之不尽)、知识的权威性和专业性(前者严谨权威,后者水平参差)、知识的实效性(前者具有滞后性,后者实时更新)、版权保护意识(前者重原创,版权保护严格,后者多引用,版权保护不严格)、阅读成本(前者价格较贵,后者进入壁垒低)等几个方面看出。[4]
(2)集成型网络百科全书。它包括两种形式,一种是多种百科全书的集成整合网站,如知识在线(Http://www.Db66.com),集成了旅游百科、音乐百科、国家百科等13个百科全书的所有网站,提供关键词检索,另一种是以某一知名百科全书为基础并整合其他资源作为辅助。此类型百科全书,既保留了原有百科全书的权威性、科学性与内容特色,又集成了其他工具书,同时对网络资源进行筛选与提供,如不列颠在线 (BritannicaOnline)。[5]
(3) 开放型网络百科全书。它是指使用维基(WiKi)技术提供“共同创作”环境的网上免费百科全书,典型应用即为维基百科,它提供了一个知识共享和协作创新的平台。维基百科的这种信息自组织模式开拓了网络信息组织的新途径,具有兼收并蓄和中立、开放的用户与内容、用户的协作共享与互动、信息的自组织管理与完善等特点。[6]
学科分类组织模式是以学科门类作为用户检索浏览百科知识的框架,使相同学科的文献信息集中在一起,将用户所需信息按类汇总,便于集中同一门类下的信息。如中国大百科全书网络版(http://202.112.118.40:918/web/index.htm)将印刷版各卷分成哲学社会科学、文学艺术、文化教育、自然科学、工程技术五大类,又在其下设置了二级类目,只要点击其中某一卷,即可对其进行分类浏览。这种信息组织模式很容易让用户鸟瞰全貌、触类旁通,起到物以类聚的效果,最终搭建一个系统性很强的知识分类框架。
但同样显而易见的是,学科分类组织模式将同一事物同一主题的信息分隔开来,即把从不同学科研究同一对象的文献信息分散在各知识门类中。如用户如果要查找“茶叶”与“茶马互市”就必须要分别在农业类和经济类中查找,很容易导致用户在网页切换过程中的“网页迷航”。
此模式的网络百科代表有:
(1) “网上百科全书”(http://www.encyclopedia.com)。Encydopedia是互联网上主要的免费百科全书,提供给用户取自哥伦比亚百科全书(第7版) 的57000多篇及时更新的文章。网站首页上有research categories,意即归类检索,展开的页面中既可以进行分类检索,也可以进行字顺检索。
像encyclopedia这类的集成网络百科检索网站正是将网络上纷繁复杂的信息资源进行分类汇总,力图通过这种一站式的检索入口将相关信息一网打尽,是网络百科的未来发展趋势。
(2) “EncyclopidiaBritannica大英百科全书”(http://www.britannica.com/):英国不列颠百科全书(Britannica) 的联网服务不但包括了不列颠百科全书印刷版本的词条,还提供了许多附加文本说明。网站首页左侧列出了 History&Society、Arts&Entertainment、Travel&Geography等七大类常用热点主题检索词。Britannica首页标题栏的browse栏点击可以进行连续两级细化的字顺浏览检索,同时还提供按主题和按著者的Biographies浏览检索。以设定目标进行字顺浏览检索时,点选十分方便,检索的页面上方还有一个列表框将该网页的信息分层进行链接,只需要在列表框中选择想看的标题,页面就可以自动跳转到对应部分,对于文字信息量大的页面浏览十分便利。
由上可知,分类浏览提供从学科角度查找文献信息的线索,字顺浏览提供按事物检索文献信息的途径,二者结合,相互补充,这种分类与字顺组织相结合的信息组织模式集直观性和系统性于一体,很好地满足了用户多样化的检索需求。
然而网络的不断发展为用户提供了更加便捷的检索途径,无论是分类检索还是字顺检索,都要求用户选用与后控词表中的类目名或叙词完全匹配的语词,否则检索结果还是与用户初衷相去甚远。如在encyclopedia中检索potato和yam,二者的中文翻译分别对应汉语的土豆和洋芋,实际是同一事物的学名和俗名,然而网站检索结果并没有将二者进行参照链接,造成事实上的知识孤立点。
此模式的网络百科代表为“维基百科”(http://wikipedia.jaylee.cn/)。提起维基百科,它几乎成了网络百科的代名词,它的开放式词条编辑模式和协作化的创作环境让它在用户心目中的地位亲切而平等。
维基百科的首页上只有普通检索的入口,网页左侧提供有分类索引和主题索引。试从分类索引中查找“鲁迅”词条,结果没有找到。需要说明的是,维基百科的词条并不完整,所以出现这样的情况也不是没有可能。又从主题导航进入查找“鲁迅”词条,在“近代启蒙思想家”下有鲁迅的链接。同样在首页的检索框中以“鲁迅”作为关键词进行检索,结果与主题导航中的词条相同,并且该条解释第一行就明确地用“周树人”进行标引,很好地解决了这种多入口检索词的规范问题。从这个例子一方面可以看出维基百科对事物的分类和主题划分是不规范的,往往掺杂着词条创建者的个人认识,很容易导致检索者在检索过程中的偏差。另一方面,通过主题词进行的检索一定要在后台配置某种分类或主题词表作为后控词表,将自然语言的语词与库中的正式语词进行参照匹配,使得同一事物的不同名称指向统一的结果,以求检索结果更接近用户的信息需求。
通过对数量众多的网络百科的调查分析,现将其归类统计如下表所示。从表中可以看出,三种类型的网络百科在信息组织模式上并不是单一地采用一种固定方式,而是基于方便用户的原则,综合利用多种信息组织方式,力求从传统的中规中矩的条条框框中跳出来,开拓出一条具有独特信息组织模式的特色化道路。同时,开放型网络百科全书在整个调查的19个网站中占了一半以上,也很有力地说明了未来网络百科的发展将朝着更加开放协作的方向前进。
表 网络百科的调查统计
(1)质量参差不齐。印刷版百科全书一般是由权威的专家学者编辑,由著名的出版机构出版发行,其严谨性、知识性是不容质疑的。而网络百科全书不像传统百科全书那样经过严格审核,因此它的权威性和声誉度不够,内容也良莠不齐,有的有拼写错误,有的信息真假难辩,有的甚至会出现一些未经考证的内容。
(2)动态易逝。网络百科依托互联网,因此网络的一些弊端也会被遗传甚至放大从而影响网络百科的稳定性,如传输线路、网络病毒、黑客攻击、系统升级、网站变更等都会对保存其上的网络百科的内容产生或大或小的影响。网络的动态和知识海洋的湮没不闻很容易造成网络百科内容和形式的动态与易逝,而且网络安全问题在网络百科中同样令人担扰。
(3)检索技术发展瓶颈。由于汉字的特殊性,使得在国外发展成熟的检索技术不能很好地移植到国内,尤其是汉字分词技术迟迟得不到有效解决,造成国内汉字检索平台发展受到限制。网络百科的宗旨在于通过检索为用户提供所需信息,因此检索技术的进一步发展成为了网络百科获得突破的瓶颈。
(4)形式单一。类别与层次的不同,决定了百科全书内容的宽窄、深浅,条目的长短及价格的高低,这种差异性最终都是为了满足不同类型、不同层次用户的信息需求。调查发现,不列颠百科全书针对不同目标用户,分为公共图书馆版、学校版、学术研究版。公共图书馆版又可分为成人版、儿童版。不同的版本在网站内容、界面设计、语言风格等方面有很大的差异。然而,和EB处于同一水平的中国大百科全书网络版并没有实现版本的系列化,网站形式单一,内容编排刻板。
(5)分散独立。现在几乎重要的百科全书都建立了自己的网络百科,各类网络百科站点的数量已达数百种之多,它们一方面为用户提供了查找百科信息的入口,但也带来了信息爆炸的隐忧,有必要对网络百科进行资源整合。
对各类百科全书进行数据整合,建立统一异构数据库系统的跨库检索将使网络百科全书用户得到更大的方便与实惠。因为,跨库检索系统可向用户提供统一的检索接口,将用户的检索要求转化为不同数据库的检索表达式,并发地检索多个异构数据库,对检索结果加以整合,在经过去重和排序等操作后,以统一的格式将结果呈现给用户,提高查全率与查准率,并减少了重复信息的干扰。但是,如何处理知识产权问题却是其面临的首要问题。[7]
(1)多元化。除了综合性与专门性网络百科全书外,现在还出现了一种类似于搜索引擎的百科全书,亦称元式网络百科全书。用户只需键入要查找的名词术语,它就会从所收录的词典、百科全书资料库中搜集有关的资料,并能注明出处,极大方便了研究人员。它自身不产生任何资料,但是它可以向读者提供所需的各种资料,而且比任何单个的百科全书和词典都要全面。未来各类型的网络百科全书在共存共荣的同时,更该着眼于多元化的发展方向。
(2) 无偿免费服务。1994年《不列颠百科全书》提供互联网上的查询业务,标志着世界上第一套网络百科全书问世,此后世界上各种百科全书纷纷涌现。[8]期间,《不列颠百科全书》曾试行过收费,但是在遭到用户的强烈抵制后即宣告恢复无偿服务。目前互联网上的百科全书多为免费服务,部分特殊的服务项目会酌情收费,但今后网络百科的发展方向无疑会是无偿服务。
(3)协作化编纂。近来网络百科中一种全新的编纂方式正在风靡业界——Wiki协作化编纂。如维基百科已经成为全球发展最快和最大的内容开放的百科全书,已经成为网上最受欢迎的参考资料查询网站,它已经从一个大百科全书演变成了一个综合性网络媒体。虽然协作化编纂可能引发网络百科的严谨性不够,易导致依赖症,也会使客观中立的编纂原则遭受冲击,甚至引起知识产权问题,但是随着技术和法律的完善,它一定会克服自身的诸多不足,成为未来网络百科的主流编纂方式。[9]
(4)合作共赢。网络百科的合作化趋势表现在两个方面:一是有多个机构合作完成并有统一机构维护管理的百科网站,如知识在线网站的管理模式;二是百科全书与其他网站合作,如《中国大百科全书》与著名的门户网站新浪合作推出了基于智慧型互动搜索技术的新浪搜索引擎“爱问”(iAsk,www.iAsk.com)。为了增加“爱问”的权威性,2005年8月3日,“爱问”携手中国大百科出版社,正式推出了“中国大百科在线搜索”服务。
网络百科经历了初始阶段的迅猛发展,正在渐渐地进入一个平稳有序竞争的时期。从总体上看,各种网络百科的宏观结构极为相似,少则以一个主题词检索作为入口,多则以某种纸质百科全书作为后台提供分类索引、主题索引、字顺索引,辅以各种各样的特色服务用来吸引用户的注意力,激发用户的好奇心,普及大众百科知识,追求一种知识性寓于趣味性的学习模式,企图寓教于乐,让知识的获取与学习不再是一件枯燥乏味的差事。这样一种新生的知识产生、信息组织的事物具有强大的生命力,它将图书馆学的传承知识、启迪民众的使命发挥的淋漓尽致,为其指出一条光明的道路。
[1]杨谷.“长尾理论”与网络百科全书的启示[N].光明日报,2007-06-03(6) .
[2]张玉凤.“众包模式”对科技传播的革新[J].科技传播,2010(2):42-44.
[3]刘勇.“众包式”营销 [J].商界评论,2010(2):52-54.
[4]刘金双.纸质百科全书PK网络百科全书[J].出版参考,2007(10):13.
[5]黄莲芝.浅析网络百科全书[J].河北科技图苑,2008(5):88-90.
[6]贾玉文.网络百科全书的发展及其意义[J].大学图书馆学报,2002(6):35-38.
[7]马叶香.网络百科全书的应用与发展趋势[J].情报探索,2008(4):43-45.
[8]严贝妮.网络百科全书的使用初探[J].情报科学,2005(7):1016-1018.
[9] Marina Trkman,Peter Trkman.A wiki as intranet:a critical analysis using the Delone and McLean model[J].Online Information Review,2009 (6):1087-1102.