韩卫红
(青海大学图书馆,青海 西宁 810016)
网络规模的迅猛发展使得Internet上的Web网站及网页数量以爆炸性的趋势增长。目前人们在网上查找信息的主要途径是通过搜索引擎,而通用搜索引擎由于多方面原因能够检索的仅仅是互联网上提供的小部分称为可索引的Web信息,大部分网络资源对这些搜索引擎是不可见的,这些不能通过静态链接获取的页面被称为深网(Deep Web)。深网的质量和数量都要优于浅网(SurfaceWeb),因此,如何挖掘、利用深网提升图书馆服务水平就成为高校图书馆需要迫切解决的一个问题。
到目前为止,学界对深网的概念还没有达成共识。研究者一方面很容易理解它为什么存在,另一方面又很难用专业的术语准确地定义,因而大多从深网是什么、为什么存在及其重要性和检索途径、方法等角度来描述深网。
2000年,BrightPlanet公司首创了“深网”术语,用来表述那些将信息内容存贮在检索数据库中而仅仅响应直接查询提问的网站。“深网”隐含着对信息内容结构的揭示。与“深网”相对应的概念是“表面网”,它包括的内容基本上都是非结构化的HTML信息,而深网包括的内容大多数为结构化的数据库信息,因此,“深”就有了结构层次更丰富的意味。同时,“深网”更多地考虑了信息用户和信息服务的因素。“深”还意味着用户获取所需信息的难度更大,需要使用更多的精力和更精致的检索策略,因而需要更细致更深入的信息服务。
1.2.1 资源丰富,数据量大,发展快
深网中的公共信息是表面网的400~550倍;深网的容量有7500TB,而表面网只有19TB;深网有近5500亿个独立文件,而表面网只有10亿个;目前存在的深网网站已经突破20万个;60个最大的深网网站共包含750TB的信息,是表面网信息的40倍还多;深网的月流量通常比表面网要多出50%,并且更容易被链接;深网是Internet上增长最快的新信息类型。
1.2.2 信息内容质量好、价值高
深网网站比传统的表面网站要更专、更深;深网内容的全部价值是表面网的1000至2000倍;深网的信息内容与所有的信息需求、市场和领域高度相关;有较高的查准和查全率;一半以上的深网内容存贮在专题数据库中。
1.2.3 利用率高,免费使用
深网站点的访问率很高,月访问量是表层网络站点的150%。95%的深网资源对公众免费开放,即无需支付费用或订购使用。
目前高校图书馆的电子馆藏资源主要有两种:商业数据库和自建数据库。为了获得商业数据库的使用权,图书馆必须每年向数据库提供商缴纳不菲的费用。由于经费有限,图书馆一般只能购买数据库使用权,尤其是外文数据库,常常只有几个在线使用额。自建数据库建设周期长、数据量少,且常常针对某一主题,根本无法满足师生对多个学科信息的需求。由于深网中95%是免费资源,且这些资源所存储的信息都与特定专业领域高度相关,高校图书馆不需要付出高昂的使用费或建设费,就可以借此向师生提供多种高质量的学术资源,尤其是外文资源,这无疑极大丰富了图书馆的资源体系,提高了资源供给能力。
目前,国内高校图书馆的个性化信息服务主要是从图书馆自身的角度进行资源组织和信息服务,针对用户提出的申请,到有关的数据库里单个进行检索,然后人工合并重复信息后发送给用户。作为信息传播门户的图书馆,应将传统的被动式服务转变为“以用户为中心”的主动式个性化信息服务。主动推送的信息必须符合用户需求并且基本涵盖所有的网络资源和数据库资源,Deep Web数据集成技术可以满足这个需求,从看似杂乱无序的浩瀚信息中提取其内在联系,高效率抓取出高质量的信息提供给用户。
根据搜索引擎原理,若没有任何其他网页链接指向某一网页,搜索引擎的Spider程序就不能沿着其他网页中的URL爬行到该网页,也就不能将该网页的相关信息搜集到索引库,那么通过搜索引擎就无法找到这些未被链接的孤岛网页。未被链接的网页是深网最基本的组成部分,可以采取两种方法将其逃逸出深网,成为易于被搜索到的表面网中的内容:第一种是在被链接的meio_aed网页中添加未被链接网页的链接,使得Spider程序能够发现这一链接,并索引该网页;第二种是网页设计者向搜索引擎提交网址,使得该网页能够被搜索引擎索引。
随着网络技术的发展,Open Access(以下简称“OA”)资源得到了空前发展。OA期刊和OA仓贮为研究人员获取学术资源提供了一条崭新的途径。但是,许多OA资源是分散存放在世界各地不同的服务器和网站上的,因此用户很难直接全面地检索到这些资源。目前在OA资源揭示方面,主要有DOAJ和OpenDOAR两个项目,分别在进行OA期刊和OA仓贮的整理工作。除此之外,国际国内一些高等院校、机构和个人也对OA期刊和OA仓贮在不同层面上做了类似的整理和揭示工作。基于用户的信息需求和信息检索角度考虑,中国教育图书进出口公司开发出了《SOCOLAR:Open Access资源一站式检索服务平台》,该平台收录了大量OA期刊、OA机构仓储等学术资源,并向最终用户提供一站式文章级检索和全文链接服务。平台现有1万多种OA期刊和1千多个OA机构仓储,资源周更新。涵盖学科广泛,主要包括:人文社科、商学与经济学、数学与统计、生物学与生命科学、工业技术、化学、地球与环境科学等。同时提供这些文献的高速链接,通过链接可获取全文。
学术搜索引擎是以学术资源为索引对象,一般涵盖互联网上的免费学术资源和以隐蔽网页形式存在的学术资源,通过对这类资源的爬行、抓取、索引,以统一的接口向用户提供服务。Internet上的该类工具为数不少,目前开发较成熟的、使用量较大的专业搜索引擎如表1所示。
表1 常用学术搜索引擎
高校师生的科研、学习活动越来越依赖于网络信息资源,并且随着网络技术和检索技术的发展,他们对网络信息资源的质量要求也越来越高,更注重获取有深度的信息内容和针对某个问题的全部信息,要求检索结果具有高度专业性和相关性,这是传统搜索引擎无法满足的。所以高校图书馆在引进搜索引擎时需要做好二次开发工作,图书馆对专业搜索引擎,可以提供其检索界面的网络地址,组织、编辑使用指南,介绍检索功能、方法、技巧等;对专业搜索软件,可以提供软件的直接下载和有关使用方法的说明文档。
要善于把检索工具当作搜索武器,充分利用信息环境中的可能条件及各种查询工具的有关知识,随时利用各种技巧搜索难以捕捉的信息资源。目前网络中有许多专门搜索深网信息的工具网站,通过这些专门的门户网站便可以找到深网信息资源,如表2所示。
表2 主要深网门户网站
大多数师生不知道深网资源的存在,过分信赖传统搜索引擎,即使对深网有所耳闻,也没有时间和精力专门收集,因此,以信息组织、收集为己任的图书馆,应责无旁贷地承担这一任务,成为师生获取高、精、深网络资源的指引者。通过对深网资源的索引和说明,让他们对网络资源有新的认识,从而调整其检索行为,找到最佳检索途径,减少检索时间,提高信息检索的质量,从而加强信息获取的深度。图书馆应充分挖掘、揭示和整合深网资源,有些高校图书馆已将一些深网资源列入本馆主页的电子资源栏目中。
主动推送个性化服务是指图书馆应以用户的馆藏使用行为、习惯、偏好及特定需求为基础,智能、主动地向用户提供具有针对性的馆藏内容,为用户提供“量身定做”的特色服务。图书馆应当根据用户的个性需求或专业特征,主动分析和跟踪,利用数据挖掘、知识发现等技术手段对深网资源进行深层次的分析和挖掘,直接提供给用户能够用于决策支持、智能查询、科学研究、解决问题的信息内容,并按每个用户的要求,主动将挖掘和整合的深网资源推送到个人用户手中,提升图书馆服务水平。
重点学科建设是高等学校建设的核心,是高校人才培养、科学研究和社会服务的综合平台。图书馆应围绕学校重点学科建设需要,制定按学科开发、建设、组织学科信息资源建设的方案,集中现有专业资源,形成具有本校学科化特色的馆藏体系,有的放矢地建设好馆藏信息资源和具有自身专业优势的特色学科资源库。并在数字资源服务数据库基础上,根据学校学科建设的重点和性质,及其对学科知识服务的要求,从学科角度进行信息挖掘和知识发现,采集学科资源和信息;充分利用深网资源,主动获取动态信息,并建立索引,从而建立分学科或专题的信息服务平台,将在互联网上或其他资源库中获取的动态信息按学科或专题进行整合,整合在统一门户下,为学科用户提供定制服务。
深网资源具有内容丰富、质量高、成本低廉等诸多优点,只是限于技术、知识产权、经济等多方面原因不为人们熟知和轻易获取。但正是其内容、质量、价格等方面的特点决定了它极高的开发利用价值,从而成为高校图书馆网络资源建设的重点对象。在这个信息爆炸的大环境下,如何利用深网资源做好高质量的个性化信息服务已经至关重要。
[1]马费成,张婷.“看不见”的网站与学科信息门户的比较分析[J].情报理论与实践,2004(3):299.
[2] 邢春艳.隐蔽网络研究刍议[J].图书馆学刊,2005(6):115-116.
[3] 邹曼莉.网络隐性信息探微[J].图书馆杂志,2003(4):22-23.
[4] 陈珂,陈小英,徐科.Hidden Web信息获取[J].计算机时代,2007(5):54.
[5] 陈红勤.学术隐蔽网络和学术搜索引擎[J].现代情报,2008(7):117-119.
[6] 杨道玲.深网信息资源采集初探[J].图书馆杂志,2006(12):19-22.