李华明
(山东大学图书馆,山东 济南 250012)
在信息技术和5G网络迅猛发展的今天,网络信息资源已经成为人类社会一种不可或缺的重要资源,网络信息资源的优势表现在赋予人们较强的信息检索和获取能力。但在现实生活中,我们在许多场合并未感觉到使用它所带来的极大便利,其主要原因在于,面对海量的网络信息、繁杂的用户界面以及众多的搜索引擎,使得用户在获取网络信息时会遇到各种各样的困难。为此,通过分析人们在利用网络信息资源时产生的难题,来制定并采取相应的开发策略,帮助他们在检索信息中克服技术障碍,从而能快捷、方便、高效地利用网络信息资源。
关于网络信息资源的含义,学术界一般是指由数字化(数据库)技术、信息存储技术、通信网络技术以及超文本(超媒体)技术所支撑的信息资源,而并非广义所讲的互联网上的全部信息。较之传统的文献信息资源,它具有信息的动态性、内容的广泛性、访问的快速性、搜索的网络性和资源的开放性等特点。可见网络信息资源的这种灵活性,决定了它比传统文献资源的归类更难以把握,迄今为止,对网络信息资源的分类还没有明确、统一的标准和公认的划分结果。现阶段就图书馆的业务性质而言,结合网络信息资源的特点和形式,将其划分为三大类。
反映某个地区(系统)的图书馆或信息服务机构收藏文献情况的统一目录,如全国中西文期刊联合目录、CALIS(中国高等教育文献保障系统)公共目录检索系统。这类目录资源主要是指用于检索各类信息的检索工具,以提供书目与索引等二次文献数据库为主。
一般包括网络版光盘数据库、计算机检索数据库和商业信息库等。如国内著名的CNKI中国学术文献总库、万方数据库等,外文的ACS(美国化学学会会刊)、Nature(《自然》周刊)全文数据库等,这类网络信息以提供全文数据库和数值数据库为主。
包括网上发布的学术、政府、文化、教育和娱乐等信息,以及可以直接从网上获取的各种电子化、数字化文献。这类信息内容庞杂且交互性和关联度较高,涉及社会知识各个层面,由于任何机构、个人都可自由的在网上发布信息,很多信息不加任何整理,处于非线性无序排列的杂乱无章状态,决定了此类信息不易被人们了解和使用。
目前,数字化文献资源、联机数据库、图书馆OPAC目录(Online Public Access Catalogue“联机公共目录查询系统”)以及互联网上各社会组织(政府、大学、研究机构)所提供的各类机构信息,不仅比较稳定、准确可靠、方便存取,同时也是学术研究的重要信息来源。因此,它们是图书馆网络信息资源组织管理和使用的主要对象。
众所周知,网络信息具有数量庞大、内容繁杂、质量参差不齐等特点,使得网上信息资源在很大程度上处于无限、无序的混乱状态。因此,在网络环境下,优化信息资源组织方法的目的就是要解决海量无序的信息资源与人们有效利用之间的尖锐矛盾。在具体实践中,通过对网络信息实行整序、描述、标引等控制过程,使之成为符合用户需要的有序信息流。
就目前网络信息资源组织方法而言,主要有分类组织和主题组织两种,二者在网络环境中互有长短,单纯使用分类或主题的方法都满足不了用户多途径查询和检索的需要,因此,分类主题一体化就成了现阶段网络信息资源组织的一种理想模式。一方面,由于信息被分别组织在不同的类目中,为过滤和筛选不需要的信息创造了条件;另一方面,将标引语言纳入分类体系除了可以直接使用自然语言外,也可以在任何类下进行语词检索,即在某一类下进行语词检索就相当于分类法与主题法组配查询,这样,在选定范围内查询到的结果则会更加贴近人们的需求,从而大大提高了检准率。用分类主题一体化组织信息资源,既能满足用户的分类族性检索习惯,又能实现主题特性的检索要求,极大地方便了网络用户的选择和使用。
书目控制历来是图书情报机构组织信息的主要手段,现阶段对网络信息资源进行编目控制其重要性依然十分突出。MARC(Machine Readable Catalogue)格式作为全球机读编目权威性的著录标准,在揭示文献信息本质特征方面具有得天独厚的优势。早在1995年,USMARC(美国国家标准机读目录)就增加了856字段,即电子资源地址与存取字段(Electronic Location and Access),利用每一个856字段来准确地指向一个网址,弥补了万维网统一资源定位系统URL(Uniform Resource Locator)的不足,因而对于质量较高的网络信息可采用MARC格式著录。同时,也应当看到,由于MARC格式太过于复杂、缺乏灵活性,造成对大量的网络信息进行著录成本高、效率低等不足。于是一种全新的信息描述工具DC(Dublin Core)元数据方式开始在网络资源组织中发挥着越来越明显的优势,DC即都柏林核心,由于DC元数据已被结构化,并支持字段查询,为从根本上解决网络信息资源的组织与搜寻提供了切实有效的方法。
目前众多网络搜索工具的使用方式不仅多样化,且信息覆盖面又太广,用户往往在查找某一特定学科信息时,一方面使得任何一个检索工具都可以查询利用,另一方面由于这类网络检索工具的专业性不强,致使检索出的信息结果系统性、完整性都较差。
有实力的图书馆应根据学科分工将本专业的网络信息按事先约定的某种体系概念分门别类地加以组织,形成用户特定需要的序列化有效信息资源,并同时开发与之相配套的专业搜索引擎。或者借助于类似Robot的智能代理软件,将网上有价值的主页或文章等信息自动取回并进行排序、索引,形成一个详尽的可供用户按学科查询的Web页专业数据指引库[1]。由于这类指引库采用学科知识组织信息资源,故能从宏观上为用户提供一张掌握信息资源的“网上地图”,使人们根据这张“知识地图”能思路清晰地查找某一类信息,从而避免了“迷路”问题的发生,它对希望查询某一范畴、学科专业方面信息(主要是网址)的用户很适用。
现实中不难发现,由于缺乏统一的整合技术或者根本就没有考虑过整合的问题,致使许多研发出来的网络资源尽管独立使用效果很好,但放在非整合环境中使用时效率就大打折扣。比如,由于无法互相跨库链接检索,查询相同的课题就不得不在诸多的数据库中重复查找;用户在索引数据库中找到了所需要的篇名信息后,则必须退出该系统,重新进入全文数据库查找原文等。非整合的网络信息确实影响了用户对信息资源的有效利用,将各种异构信息资源整合于同一个系统已成为5G时代发展的必然。理想的资源整合应该是在制定网络信息产品统一开发标准的基础上,把不同的信息资源通过一致的对外接口无缝透明地连接在一起,使用户能方便快捷地浏览和访问不同的异构信息。从最初检索到最后获得所需原文,都在统一的整合系统中完成,用户感觉如同是在一个资源丰富的“信息超市”(Information Supermarket)里浏览和选择自己的所需信息,这种理想的资源整合应该成为网络信息开发利用中所追求的一个重要目标。
基于Z39.50协议的系统和模块,是目前实现网上异构信息整合的理想工具。Z39.50协议是用来定义计算机之间信息检索的标准通信协议,它不仅可以屏蔽不同系统、平台和文件格式的异构性,同时又规定了异构信息系统之间传递数据的标准方法,通过自我编码和解码,灵活动态地选择和容纳了多个数据系统,使用不同数据格式的信息交换双方只要都遵循Z39.50协议,Z39.50协议便自动实现联机数据交换[2]。这样,用户通过屏蔽异构信息间的差异来达到资源整合,从而实现对Web上异构数据库进行检索和互访。
图书馆所提供的信息资源主要有:电子书刊资源、联机数据库、OPAC目录以及不同出版商生产的脱机或光盘(网络版)数据库等,这些信息资源的用户界面复杂且繁多,有些不仅需要在用户端安装下载专用阅读和检索软件,有时更需进行一定的参数设置方能使用。可见,让客户掌握、熟悉如此复杂的界面是相当困难的,因此,构造友好的集成化用户界面,方便用户的信息查询,已成为图书馆网络信息资源开发和利用中的又一重要工具。
用户界面的集成化处理,可利用人们熟悉和掌握的Web技术进行界面优化,也就是将原来需要用户端下载专用软件才能使用的数据库产品转换成用Web浏览器查询,或通过Web页的形式达到交互式的分类信息检索。这样客户只需掌握熟悉的Web浏览器检索方法,就能非常容易地访问和获取众多网络信息资源,从而大幅度提高各类信息的获取速度。
实践证明,通过Z39.50协议也是优化用户界面的一种行之有效途径。如前文所述,由于Z39.50协议为客户提供了一种数据传输的标准接口,因此,用户在使用时,不需要熟悉对方检索系统的软硬件配置及命令,只要遵循Z39.50协议,利用自己所掌握的检索方法和用户界面就可以方便查询到对方的数据库系统。事实上,一些集成化的试验或应用系统已经出现,比较突出的有Ohiolink(美国俄亥俄州大学和学院图书馆共同组建的地区性电子文献资源共享网络)以及我国的CALIS系统等。
有网络检索经验的用户都知道,使用InfoSeek、Looksmart等检索软件时,信息内容特征抽取复杂,有时输入一个检索式,往往得到一大堆网址,用户只能依次浏览,从中一个一个筛选出极少符合自己需求的信息,最后得到数据不仅正确性和可靠性缺乏保障,而且费时费力,查询效果难尽人意。
网络环境下为帮助用户快速、全面、准确地查询到所需信息,研发智能化的搜索引擎将成为图书馆参与信息资源开发与利用的关键内容。目前的理论研究认为,5G时代的智能搜索引擎不仅保留传统的快速检索及相关度排序等基本功能外,同时又要开发出用户兴趣自动识别、用户角色登记、智能化信息滤、内容的语义理解和推送等拓展延伸功能,此外,还应具备了跨平台工作和处理混合文档结构的多文种能力,它既能处理SGML(Standard Generalized Markup Language标准通用标记语言);又能处理XML(Extensible Markup Language标准通用标记语言的子集)和HTML(HyperText Markup Language超文件标示语言)文档以及其他类型的文档,比如WPS Word等[3]。由于智能搜索引擎直接采用以知识库为基础的语义分析,将信息检索从现有的基于关键词层面上升到基于概念(或知识)的层面,故能够提供更方便、更确切的搜索服务。智能搜索引擎将向以下几个主要方向发展。
4.4.1 智能推送技术
智能搜索引擎利用汉语分词、句法分析以及统计理论有效地理解了用户的请求,通过观察用户的行为,根据用户对信息的回馈,了解用户的兴趣爱好,在此基础上将自动收集、整理用户感兴趣的网络信息,并选择最佳时机主动推送到用户的页面前,免去了用户被动搜索的困扰。
4.4.2 驾驭书签技术
通过挖掘用户日常使用的书签或收藏夹中内在的价值,形成一个概念检索体系,再利用类似链接评价分析法,对逐条记录的潜在重要性进行评判并打出相应的分值,帮助用户利用那些可能被大搜索引擎忽略掉的重要资源。
4.4.3 爬行代理技术
针对网上信息的动态性,利用被称作Robot、Spider等名称的爬行代理软件,通过启发式学习并采取最有效的搜索策略,在网上爬行收集、整理信息,自动完成在线信息的索引。
4.4.4 元搜索引擎技术
元搜索引擎(Meta-Search Engine)查询时调用其他多个独立的搜索引擎,并对从多个搜索引擎返回的查询结果进行处理(主要涉及测试连接、格式转换、去重排序等),以统一的界面显示。它不需要自己的数据库,只需存储连接其他站点的信息,采用这种技术,能够方便地实现各馆之间数据和资源的互访与共享,便检全率大大提高[4]。
由于网络数字化信息的拷贝复制相当容易,因而其版权问题十分严重,图书馆如何在版权法允许的范围内合法地开发利用信息资源是当前一个比较突出的问题,为此,笔者强调应做好以下几方面的工作。
(1)密切关注版权立法动态,及时根据版权法的最新发展动向,调整自己的工作策略和方针,让自己的行为更加符合法律准则。
(2)完善信息版权保护机制,系统应具有严格的版权认证功能,一般可通过用户账号、数字信息身份标识(DOI)和文件自我保护(SPD)等方式来实现,从而有效地控制网络用户合法使用信息资源。
(3)教育和引导用户遵守版权法,增强知识产权意识和信息价值观念。避免卷入版权纠纷。
(4)加强与版权人、出版者的沟通与协作,积极参与立法,维护公众利益。
毋庸置疑,随着机器深度学习技术、爬虫技术和AI推送技术等网络信息挖掘所需的支撑技术的逐步成熟,网络信息资源的开发与利用将朝着个性化代理模式的方向发展,即根据网络信息的属性和用户需求,提供一个多媒体、多途径的信息资源统一开发环境,以人们习惯的方式逐层、逐类地实现网络信息资源最大效用。