王东波 曲阜师范大学图书馆 273165
基于新网络的文献信息资源检索技术和方法
王东波 曲阜师范大学图书馆 273165
网络信息组织模式已从Web1.0步入Web2.0,正在向Web3.0转型。基于这种新网络的文献信息资源是当今社会最重要的信息资源。人们在运用新网络文献信息资源改善知识结构,完成学业、科研,提高综合素养,提升工作能力的同时,又不得不为如何获取新网络环境下文献信息资源的最佳途径而苦恼。基于此,本文对新网络环境下文献信息资源的检索技术、检索方法和检索途径等进行了较系统的梳理、研究和揭示,并给出了比较好的解决方案和策略。
新网络;文献信息资源;检索技术;检索方法;检索系统
文献信息资源检索技术是指人们为处理解决面临的各种问题而查找、识别、获取相关的事实、数据、知识等过程中运用的各种技术,也是利用现代信息资源检索平台如门户网站、大型数据库系统、随书光盘系统、视频VOD点播系统、各类课件等检索有关文献信息资源而采用的相关技术。
现在,随着网络信息组织模式已从Web1.0步入Web2.0,正在向Web3.0转型,文献信息资源检索技术也不断向两大方向发展和延伸:一是传统文献信息资源检索向全文文本、多媒体、超媒体、多载体、多原理等新型文献信息资源检索的发展,在深度上提高管理和组织文献信息资源的能力,如探索自动抽词、自动索引、自动翻译、智能搜索等;二是文献信息资源的网络化和分布化,面向Internet中浩瀚无垠的资源,在广度上提高管理和组织文献信息资源的能力。在信息资源检索技术研究领域中,基于概念、超文本信息和多媒体信息检索技术已取得了突破性发展。未来,多媒体文献信息资源检索、可视化检索、基于网格的检索、语义检索等将是网络文献信息资源检索研究发展的重点。
1.2.1 文献信息资源检索语言
文献信息资源检索语言也称检索标识语言,是根据人们的检索需要而创制的,其实质是表达一系列概括文献内容的概念及其相互关系的概念标志系统。当前,文献信息资源检索系统主要涉及的语言为主题语言、分类语言、代码语言、引文语言等。
新网络环境下,检索语言被广泛应用,几乎每个搜索引擎都具备语言检索功能。语言还在网络目录、元数据、数据库检索系统中有广泛应用。世界知名的Google就是因开发使用了基于引文索引语言的检索结果组织技术而蜚声世界的。将来的语义网,使得网中的所有信息都具有语义,可以实现机器可识别语义的数据的自动存取和利用,能实现信息的跨平台、跨语种的聚合,它将会使人类从搜索相关网页的繁重劳动中解放出来。网中的计算机能利用自己的智能软件,在搜索数以万计的网页时,通过“智能代理”从中筛选出相关的有用信息,而不像现在的万维网只给你罗列出数以万计的搜索结果。
1.2.2 文献信息资源检索工具
文献信息资源检索工具是用于报道、存储和查找文献信息资源的一切工具与设备。它以各种类型的原始文献为素材,在广泛收集、筛选、分析的基础上,用选定的检索语言进行描述和标引,并按特定规则组织编排而成的多次文献资源。现在文献信息资源检索工具品类繁多,主要按检索手段、载体形态、收录范围、著录对象、著录方式、出版形式等划分。
未来,依靠Mashup技术对用户生成的内容信息及其精确阐明信息内容特征的标签进行整合,进一步提高信息描述的精确度,使得内容信息的特征更加明显,便于用户的有效检索利用。运用UGC(user generated content:用户生产内容)的筛选性过滤技术对各种信息进行的筛选,可将可信度高的信息向前排,也利于信息检索的质量。TAG/ONTO/RSS基础聚合设施及渐进式语义网的发展将为Web构建完整的内容聚合与应用聚合平台,为用户提供更加个性化的准确、快捷的搜索引擎。作为对RSS高度整合的Web3.0,搜索也被高度整合,人们只需输入自己的需求,就可以迅速得到所需信息,甚至一套完整的解决方案。
1.2.3 文献信息资源检索系统
基于文本信息的查询系统如Archie、WAIS、Veronica等,虽然它们使因特网信息服务的友好性、易用性得以加强,却提供信息资源范围有限。而万维网搜索引擎(SE)如Yahoo、Infoseek、 Lycos等就使网络信息获取方式产生了根本变化,为网络信息查询带来了生机和活力。SE以超级文本方式提供世界范围内的多媒体信息服务,既包括文本,又包括图像、影视和声音信息,彻底改变了过去只靠浏览挖掘信息的情况,用户可以进行目标明确的检索。SE也有它的局限性,如将信息的收集和查询截然分开,不能实现真正的概念检索,对多媒体的检索也不能令人满意等。为此,有学者提出了一种新的网络信息服务模式,这种新模式包括两个方面:一是面向用户的个人信息查询助理(Personal Information Searching Assistant,PISA),另一个是面向主题的主题信息代理(Subject Information Agent,SIA)。[1]
具有很好应用前景的语义检索系统,目前虽然还处于发展初期,但已有不少相关产品问世。SEMPL是美国佐治亚州大学建的一个语义Web门户,它可以查询文档内容的上下文关系,注释Web网页和提供语义相关内容的链接,实现了信息间丰富的关系查询。Ontoweb是欧盟IST资助创建的一个学科语义门户,它实现了门户间的交流,虽然这种交流在一定程度上还很有限。
当前,我们已步入网络化社会、信息化社会,电子信息、数字信息日益影响着我们的工作和生活。Internet拥有的包括图书、期刊、报纸、会议资料、文件报告、新闻、专利文献、标准、图片资料、产品信息、电子游戏、各种软件等在内的文献信息资源,是我们获取所需文献信息资源的重要来源。学会共享和快捷检索利用互联网的文献信息资源,是每个人要熟练掌握的。
目前,Internet文献信息资源形式主要有:万维网文献信息资源、FTP文献信息资源、TELNET文献信息资源、USENET文献信息资源、语义网文献信息资源等。
2.1.1 万维网文献信息资源
万维网(World Wide Web,缩写WWW)是欧洲粒子物理研究中心为利用超文本方式传递信息而于上世纪90年代初期发明的,由于它在发布和浏览网页上的多媒体和超媒体信息时方便、灵活、易用,发展很快,已成为家喻户晓的网络利用平台。据专业人士统计,WWW信息资源已占Internet网上各种信息资源总量的78.3%。
现在,检索Internet文献信息资源的主要工具是搜索引擎,新浪、雅虎中国、搜狐、网易、Google中文、Infoseek、Excite、各类门户网站等都普遍应用了搜索引擎。只要正确输入查寻词,就可获取大量相关的网络资源。这些文献信息资源很多是免费的,但庞杂、鱼目混珠,需要用户仔细筛选。
2.1.2 语义网资源检索
作为WWW的扩展,语义网是一种能理解人类语言的智能网络,它不但能够理解人类的语言,而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。语义网使得网络中的所有信息都具有语义,可以实现机器可识别语义的数据的自动存取和利用。在语义网上检索文献信息资源,将会把我们从搜索相关网页的繁重劳动中解放出来。因为网中的计算机能利用自己的智能软件,在搜索数以万计的网页时,通过“智能代理”从中筛选出相关的有用信息。而不像现在的万维网,只给你罗列出数以万计的无用搜索结果。[2]
2.1.3 数据库资源检索
目前,国内外信息服务机构出版了成千上万的各种类型的数据库资源,这些资源由于数据更新快、出版周期短、信息处理方式多、使用方便等优点,大受用户的欢迎。
一些大型数据库,特别是专业性很强的数据库,研制费用很高,价格昂贵(有些国外数据库年购置费在几十万美元),一般用户是买不起的。这就使得这些数据库资源主要集中在高校、科研院所、大型图书馆等单位,由单位投资买入。数据库商在这些收藏单位设镜像点,或通过设定IP进行远程访问。有幸在这些单位进修学习或读学位的同志,可免费获得这些资源。不能共享上述资源的用户,如查检数据库资源,只能通过购买上机卡或网络交费访问。如果在图书馆等信息服务单位查寻不到所需的数据库资源,也可通过该单位的馆际互借系统,获取别的收藏单位的相关资源,只是需要办理相关手续并缴费。
2.1.4 文献信息资源的委托服务
如果用户没有时间,或不方便亲自检索、收集所需的文献信息资源,可采取委托方式让信息服务部门代办。目前,相关的服务项目主要有:
(1)文献代查、代检。服务部门针对各个学科、各种目的的研究课题,以描述课题的主题词、关键词等作为检索入口,从开题立项、研究中期、直到成果验收,开展全程的文献检索服务。
(2)定题服务。服务部门根据用户的学习、教学、科研、工作需要,定期或不定期对某一特定主题进行跟踪检索,把经过筛选的最新检索结果,以书目、索引、全文等方式提供给用户。或是针对各个学科、各种项目的研究课题,经与用户协商从课题前期调研、开题立项、中期成果、直到成果验收,开展整个过程的文献检索服务。
(3)科技查新。服务部门以文献信息为基础,以文献检索和情报调研为手段,以检出结果为依据,通过查新为科研立项,科技成果的鉴定、评估、验收、奖励,专利申请等提供客观依据,也能为科技人员进行研究开发提供快捷、可靠、丰富的信息。
(4)电子文献馆际互借。服务部门接受读者的委托,向国内外高校图书馆及文献情报机构请求提供所需的电子文献。传递的文献类型包括电子版学术期刊论文、学位论文、学术著作等。
(5)纸质文献馆际互借。服务部门可帮助用户向国内外的图书情报机构获取期刊论文、学位论文、会议论文、科技报告、标准、专利、图书等文献资料。传递方式包括邮寄、电子邮件等。
现在,文献信息资源检索除基于内容的多媒体资源检索如文本资源检索、图像资源检索、音频资源检索和视频资源检索外,还向基于人工智能的资源检索发展。另外,多种类型的资源检索服务如公共信息资源检索服务、个性化信息资源服务、特色化信息资源服务、互动式信息资源服务、辅助性用户服务等也因用户的需求而不断涌现。
文献信息资源的检索可以利用网络信息交流的便利性,借助于以上的服务模式,以电子邮件、网络电话、图文电视广播和网上留言薄等方式寻求服务。人们要特别重视当前信息服务机构如图书馆开展的个性化网络服务,借助信息推送服务(Push)、个性化定制服务和网上实时服务获取需要的文献信息资源。这些个性化服务是图书馆等信息服务部门为适应网络环境下用户的特殊要求,依托新技术而开展的面向用户的高层次信息服务,它可以为用户提供高效、快捷、便利的信息服务,是图书馆信息服务的发展方向,是高级的网络服务。[3]
更高形式的文献信息资源检索服务会接踵而来,用户只要手持带有Wi-Fi或3G功能的智能终端(智能手机、上网本、MIDT等),人们可以随时享受以“云计算”为代表的快捷虚拟服务,可以上网查询文献信息资源和所需信息,可以拥有个人海量的馆藏。三网融合,使网络覆盖所有的城市和乡村,加速了人间对信息资源的检索和利用。图书馆也会把内容数据与个性应用紧密结合起来,把Web技术与客户端技术无缝集成,可以开发出更“酷炫”、更加方便可用的内容展示形式和资源获取途径。[4]用户借助移动网络接收图书馆等提供的短信服务、移动数字图书馆服务、手机阅读服务、馆藏检索服务。
[1] 丁蔚,倪波.因特网信息服务新模式[J].情报理论与实践.2000(2):132-135
[2] 李玥.拥抱Web3.0[J].中国计算机报.2008年第29期
[3] 乔欢.信息行为学[M].北京:北京师范大学出版社.2010:230-232
[4] 朱强等.以开放的心态迎接新的信息技术[J].中国图书馆学报.2010(5):77-94
10.3969/j.issn.1001-8972.2011.07.121
本文系山东省艺术科学重点课题“高校文献信息资源共享网建设”研究成果之一
王东波,男,1965年生,山东东平人,曲阜师范大学图书馆研究馆员,研究方向为图书馆学、情报学。