●邱均平,李艳红(武汉大学 信息管理学院,武汉 430072)
索引是将信息集合中具有检索意义的事物名称及形式或内容特征词,如篇名、人名、书名、网站名、网页名、地名、主题词、分子式、分类号、专利号、报告号、名词术语等信息单元抽取出来,其后注明地址,按照特征词字顺进行重组排序所形成的信息存取系统。[1]索引的基本功用就是作为查找目的事物的工具,可加快查找速度,节约查找时间,使查找过程变得简易方便,降低查找遗漏。[2]在网络化和数字化条件下,人们仿佛置身于信息的汪洋大海中,信息被大量而迅速地生产出来,而其质量则良莠不齐,加大了人们获取有效信息的难度。为了有效地获取和利用信息,我们需要对信息进行筛选、评价和有序化。索引原理具有广泛性,不论其是何种形式、载体,都必须要能被“组织”或“控制”。因此,在新形势下索引原理不但不能失灵,相反更要加强,开辟出新的领域。
索引是为方便检索特定知识或信息而编制的指引工具,根据在信息检索中的功用,索引又可以分为检索情报源的索引和直接检索事实情报的索引,其中,直接检索事实情报的索引即为内容索引。[3]
在网络环境下,索引的加工对象将从传统的纸质资源扩展到数字化信息资源,从专业性知识信息扩展至包括生活、保健、交通、饮食、旅游等各类信息,这为索引的可持续发展提供了广阔前景。对于内容索引而言,这些新形势带来的改变更为明显。现代索引技术改变了传统检索模式,它采取完全开放的原则,从工具范围、检索语言等方面为用户提供了网络检索的基本形式。如今,绝大部分搜索引擎都是基于索引的检索技术,而基于内容索引的检索技术,大大减少了搜索的响应时间,提高检索的准确性,例如Google公司开发的新型网络内容索引系统Caffeine,实现对网络内容索引的规模化,可以更好地满足用户对于信息检索的需求。目前我国索引业已经形成以网上文献数据库为主的网上文献数据库、网络信息检索工具以及传统索引三分天下的格局。[4]当前,网上文献数据库与网络信息检索工具得到了迅速的发展,但是与之形成鲜明对比的是,较为传统的文献内容索引的编制情况却不容乐观。因此,本文将重点论述文献的内容索引。
文献内容索引以文献中的局部主题和所涉及的具有信息价值的各种主题因素(如人物、机构、地区等) 及其他索引项为标引对象,文献内容索引主要包括图书内容索引(或称书后索引)、学位论文内容索引、期刊论文内容索引、专利内容索引等。[5]
图书内容索引又称书后(末) 索引、专著索引,一般置于书后,作为原书的一个组成部分随书出版。一般以书的附录形式出现,主要是以书中某些词语为线索,指出这些词语的相关描述的内容在本书正文中所在页码。主要种类包括主题索引、人名索引、团体名索引、地名索引、专利索引、医药名索引、化学分子索引等。[6]2006年,张琪玉教授出版的《图书内容索引编制法》 是我国第一部图书内容索引专著。
学位论文内容索引是一种详细揭示、查找学位论文中包含的情报内容的检索工具,是学位论文不可缺少的重要组成部分。[7]学位论文的内容索引能够深入地揭示学位论文各章节的内容。通过内容索引,能全面地了解学位论文所论述的重点、要点和不足之处,为方便快捷的查找利用学位论文研究成果提供了一个有效的途径。
期刊内容索引是按一定原则和编制方法,将期刊文献中所包含的人名、地名、学术名词、论述的主题、分子式等内容摘录出来,它是帮助人们有目的地查阅期刊文献的有效工具,是揭示期刊内容的钥匙。与期刊目录相比,内容索引能更深入、更细致、更准确地向人们提供期刊文献中的内容信息。[8]
专利内容索引作为全面地揭示专利中情报信息的检索工具,用它不仅能查找某一特定的专利,而且可以查找与该专利内容有联系的相关专利,专利内容索引能全面地揭示有关的专利信息,方便用户了解科学技术的发展状况,为技术研究提供有力的依据。
文献数据库是索引事业现代化的标志和成果,从其收录规模和检索功能看,已经远远超过传统索引而成为我国索引事业的主要部分。随着几大力量雄厚的索引公司的崛起,如清华同方数据公司、万方数据有限公司、重庆维普等,我国文献数据库已发展到相当的规模。[9]但是,相比较而言,文献内容索引的应用状况却不容乐观。
长期以来,图书内容索引在西方国家受到广泛的重视,西方读者习惯于使用图书内容索引来检索自己所需的内容。图书内容索引编制的好坏,也通常作为评判图书质量的重要指标之一。美国律师和政治家宾尼 (H.Binney) 曾说过:“我以为一本好书,如果没有一个好的索引,会失掉它一半的价值。”然而,在我国,编有书后索引的图书所占比例仍非常低。20多年前,程永山曾对中国科学院上海分院的中外6类846种文献的统计结果显示,有142种文献编有各类索引,占总数的16%,其中外文文献编制索引的占71%,而中文文献只有不到5%。[10]周柏康对2004年1064种中文新书(不含工具书) 的统计表明,有书后索引者仅33种,占全部样本的3.1%。[11]有一些出版单位从国外引进学术著作时,因为嫌麻烦将外文版的索引、注释直接删除,严重破坏了学术著作的完整性。2009年,衡中青与侯汉清在对283篇学位论文的统计中发现,其中有索引的只有8篇,约占2.8%。[7]由此可见,我国内容索引的编制情况十分落后。文献内容索引编制现状并没有随着时代进步、技术发展而得到改善。
黄恩祝在《应用索引学》 一书中概括了索引的分解、梳理、组合、结网、揭示、鉴别、追踪、导航、执简、检索、预测等功能。[12]内容索引除了具备索引的基本功能以外,还具备如下功能。
文献中通常包含着许多有价值的知识单元,内容索引将文献中具有检索意义的知识单元进行标引,可以发现书中论述的重点和特点,编制索引的过程也为文献作者提供了考虑书中重要概念、术语或词语间相互关系的机会,重点是思考其间的聚合关系,从而实现了对文献中知识单元的梳理和规整。
通过内容索引可以直接查检到所需信息在文献中的确切位置,可直接获取信息内容。因此,大大提高了文献检索的命中率,内容索引能更好地满足读者检索信息时“查全、查准、查快”的要求。通过内容索引可以查找文献中的任一事实、数据和概念,同时也能减少查检中的遗漏。
对于专业人员来说,如果没有科学的信息传递工具,要想了解本专业的有关专业技术、最新信息和动态发展,犹如大海捞针,难度较大。内容索引将具有相同主题因素的信息聚集在一起,只需通过内容索引,便可了解有关该主题下的所有内容在文献中的位置,读者可通过选择感兴趣的主题来了解相关的内容,有利于指导读者阅读。
文献的内容索引具有将分散于文献多处涉及同一事物的论述集中显示在一起,有利于研究者进行系统全面地专题研究或考证,方便研究的作用。
国家图书馆史睿认为只有借助其知识扩展和知识管理功能,人类才能探索知识发现的新方案。[13]对文献编制内容索引,是对知识的一次再加工过程,读者在浏览内容索引时,不但能比较全面地了解文献中所论述的问题,而且读者常常可以发现哪些观点是著作者对前人或其他学者的借鉴、继承或发展,也能从中发现著作者的新发现、新观点或新创造,此时内容索引具有“知识挖掘”的作用。
某些书(如阅读性图书) 本身虽非工具书,但是,当配备了内容索引之后,也能在一定程度上发挥参考工具书的检索功能,便于读者利用。
编制内容索引是一项再创造过程,需要对所编的文献资料作重新组织与排列,对重要的术语作大量的调查比较研究工作,要对全书作多层次的审视。因此,在索引的编制过程中,一方面能从文献中发现各种形形色色的问题,找出文献的薄弱环节和错漏,有助于学术的提高和语言的凝炼。另一方面也为作者提供了自我审视的新视角,与“线性”的写作过程不同,作者在编制索引时需要将书中不同位置的内容依靠同一主题因素汇聚在一起。编制索引为文献作者提供了考察文献知识内容的机会,同时也能使著者能够从信息检索和利用的视角重新审视书中内容的呈现效果。
对于某些文献来说,编制内容索引还具有增值效应,比如说,对古籍图书编制内容索引,可以成为古籍整理的有效工具,可以进一步增加古籍文献的价值。我国的古籍浩如烟海,为古籍编制索引,我们可以从中得到许多重要的文献资料。对于那些有一定参考价值和一定研究深度的图书来说,没有索引,查阅回溯十分不便,客观上阻碍了图书内容的开发与利用,从而也降低了使用价值。
在数字环境下,将经过筛选加工的内容索引纳入数据库或索引工具书,可以大大简化处理过程,亦可为网络情报服务体系和索引工具书提供基础资源。针对文献内容累计索引可随时累积(增加内容) 而不断更新的特点,张琪玉先生也进一步提出建设累积索引数据库的设想。[14]
我国文献内容索引的相对落后,除了与读者使用文献习惯的陈旧以及情报检索意识的欠缺有关之外,还与文献内容索引编制技术手段的落后有关。长期以来,我国的内容索引处于手工编制的阶段,索引的编制,需要综合考虑索引的学科范围、索引的文献范围和载体、索引规模、索引项与索引单元以及标引深度等问题,针对不同的文献,需采用不同的标引策略,手工编制文献内容索引具有准确性高的特点,但同时手工编制索引耗时耗力,造成索引收录范围窄、规模小,无法发挥索引的真正优势。
国外机构在重视图书内容索引编制的前提下,充分利用计算机技术实现索引自动化,目前其索引技术已经相当成熟。早在1992年,国外已经有了Macrex、Cindex、IndexAid2等10种较稳定和较流行的专用微机辅助标引软件。此外,还有Word Perfect、Microsoft Word等含有索引编辑功能的文字处理软件。[15]如今随着各种电子排版文本的出现和数据库存储技术的成熟,越来越多的人尝试利用计算机完成索引编制,也有专家尝试利用计算机的智能分析直接完成赋词标引或抽词标引。
针对中文图书内容索引的编制,南京农业大学的康艳在其硕士论文中探讨了中文图书内容索引计算机编制的研究与系统实现,她通过使用国外各种索引工具,分析其在编制图书内容索引过程中体现的强大功能特点。在此基础上,针对目前国内索引工具的不足,设计系统的各个功能模块。[16]虽然这篇文章主要针对中文图书的内容索引,但是对于其他类型文献的内容索引的计算机编制同样具有借鉴作用。
张琪玉先生曾指出,图书内容索引的计算机编制,主要问题在于标引功能的自动化与编制出处项功能的自动化,图书索引要求详细而又有选择地并相当专指地标引图书的局部主题和主题因素,不允许像全文检索那样用所有关键词无遗漏地标引其全部内容。[17]但是目前自动标引系统抽出的表述文献主题的主关键词准确性较差,还不能完全代替人工标引,因此在借助计算机编制索引时,仍需采取“人机结合”的方式,将自动标引的高效性和人工标引的智能性相结合。
一般认为,索引是文献检索的工具,但是,随着时代的发展,索引的加工对象和服务对象都在不断扩展。在当前环境下,如果能将先进技术的优势与索引专家人工智能优势密切结合起来,那么索引仍是组织文献及信息的利器。在新形势下,必须充分利用计算机、网络等最先进的技术,扩大内容索引的应用范围。
内容索引的编制,最主要的应用就是进行信息检索。内容索引是一种能够深层次揭示文献内容的检索工具,在文献中,无论是图书、论文还是其他类型的文献,内容索引均可以提供另一种检索途径,提高对文献信息的查全率与查准率。
如今,随着数据库的发展,文献的储存、阅读、检索形式不再局限于现有印本形式。良好的高度发展的搜索技术与文献内容索引的编制相辅相成。完善的内容索引将提高信息查询的效率,而先进的搜索技术,也将有利于文献内容索引的编制。
互联网内容的规模每天都在增长,互联网内容的增长并不仅仅体现在数量上面,而且还出现了视频、图片和实时更新等内容。与以往相比,目前平均每个网页所含信息量比以前更为丰富。在海量信息中获取真正需要的信息,顺序搜索的响应时间变得不可忍受,解决搜索响应时间的办法就是建立一种便于搜索的数据结构——索引,索引是决定网络信息搜索引擎性能的关键,可以提高信息查询速度。此外,网民对搜索引擎性能的期望值比以前更高,为适应互联网产业的向前演进以及满足网民的需求,Google公司开发了新型网络内容索引系统 Caffeine。[18]Caffeine技术不仅仅提高了网络索引的时效性,实现对网络内容索引的规模化,而且使组建性能更强大的搜索引擎成为可能,可以更好地满足用户对于信息检索的需求。
有人统计,研究人员用于搜集、阅读和研究资料的时间,要占全部工作时间的1/3以上。如果编有完备的索引,传递文献情报信息,就可以大大减少这种浪费。科学合理的内容索引能深入系统地揭示信息内容,使研究者和学生更方便地引用相关的信息或梳理相关的内容,使得学术研究能够成为一种更加轻松、更有趣味、更能发挥创造天赋的活动,同时也有助于研究者更清楚、更自觉地区分出不同思想、不同观点的来源、继承、借鉴和发展的关系,从而避免在学术规范上出现失当或违规。如果我们合理地使用索引,一方面可以为研究人员增加工作时间,使其从事创造性的研究工作,另一方面也有助于科研人员对文献信息内容进行深入细致的了解,有利于研究人员进行系统全面的专题研究或考证,好的内容索引不仅能为科研人员提供新的知识点,有时还能提供全新的研究视角和研究思路。例如期刊内容索引数据库(PIO,Periodicals Index Online)多学科的收录范围就能够为当前研究工作的发展趋势提供支持,因为用户可以从很广泛的学科期刊中提取参考文献。对于刚开始某项课题的研究人员来说,内容索引数据库可以使他们对文献做一个初始而快速的检索,而这项工作在以前要耗费大量的时间;对于那些研究工作进行到中间或接近尾声的人来说,则让他们进行一次有益的“再检查”,从而帮助他们确定所有与课题相关的内容都被考虑进去了。
内容索引还能用于对文献信息的评价。内容索引是学术著作不可或缺的组成部分,图书有无书后索引以及索引编制的优劣,应当成为评价一本书,尤其是学术专著的一个重要指标。国外图书馆在遴选和购置图书时,内容索引就是一个重要的参考指标,在推选优秀参考书过程中,美国图书馆协会(ALA,即AmericanLibraryAssociation) 实际上将那些没有索引或索引质量差的图书排除在外,而ALA的挑选将会极大影响其他图书馆,尤其是大学图书馆的图书采购。
随着经济全球化和高度发达的信息产业的发展,世界文化发展呈现出多元化发展趋势,文化的传播、交流和影响日益全球化。[19]但是,学术著作缺乏索引等学术不规范问题已经成为我国学术著作跟国外版权贸易当中遇到的最大障碍。计算机技术、信息技术的快速发展对索引技术的发展起到了重要推动作用,但是,由于文化习惯的影响、经济效益的考量、索引软件的缺失等原因,文献内容索引在我国始终没有受到足够的重视。文献内容索引,尤其是图书书后索引呈现出严重缺失的状况,而缺乏完善的学术著作出版规范和标准,是造成目前文献内容索引缺失的重要原因。编制内容索引,是规范学术出版标准,提高学术出版质量的必然要求,是提高内容质量,促进文化繁荣的必然要求,是扩大学术影响力,实现文化交流的必然要求。新闻出版总署副署长邬书林曾在多个场合多次谈到学术著作书后索引编制问题,反复强调学术著作如果不做索引将不能获得政府奖参评资格,出版基金将不予赞助。[20]这就需要我们通过各种渠道积极推广内容索引。对此,我们建议著者和出版者采取必要的措施,尽快改变文献无索引查阅不便的落后状态。
[1] 张帆.信息组织学 [M].北京:科学出版社,2005: 174-175.
[2] 张琪玉.情报语言漫笔 [J].图书馆理论与实践, 2003(6) : 47-49.
[3] 张琪玉.图书内容索引编制法:写作和编辑参考手册[M].北京:化学工业出版社,2006:4
[4] 陆建江,等.智能检索技术[M].北京:科学出版社,2009.
[5] 全国信息与文献标准化技术委员会,中国索引学会.GB/T 22466-20085索引编制规则(总则)[S].北京:中国标准出版社,2009.
[6] 黄远慧.浅议图书内容索引的推广 [J].才智,2011(24): 89-90.
[7] 衡中青,侯汉清.应该为学位论文编制内容索引[J].中国索引, 2009 (2) : 31-34.
[8] 陈毛英.期刊索引探析 [J].情报科学技术,1993(3) : 40-43.
[9] 张琪玉.中国索引事业:当前格局与问题[J].中国索引, 2005(4) : 9-13.
[10] 陈永山.试论书末索引(续)[J].图书情报工作,1981(3) : 14-19.
[11] 周柏康.对书后索引现状的一次调查 [J].中国索引,2004,2(4): 13-15.
[12] 黄恩祝.索引的十一种功能 [J].中国索引,2005,3(2) : 7-8.
[13] 史睿.索引与知识发现 [J].中国索引,2006,4(1) : 2-8.
[14] 张琪玉.关于图书内容累积索引数据库的设想[J].中国索引.2007(4): 18.
[15] 康艳.图书内容索引编制系统(BIS)设计探讨[J]. 中国索引,2008(1) : 27-35.
[16] 康艳.中文图书内容索引计算机编制的研究与系统实现[D].南京:南京农业大学,2008.
[17] 张琪玉.图书索引软件的功能要求与编制难题[J]. 中国索引,2004(3) : 41.
[18] Google称开发出新型内容索引系统Caffeine[EB/OL].[2012-05-12].http://homepage.yesky.com/86/11370586.shtml.
[19] 欧阳剑波.对全球化时代我国文化发展的理性思考 [J].湖湘论坛, 2009(1) : 64-65.
[20] 庄建.对不规范的学术著作说“ 不” [N].光明日报, 2012-01-12(9) .