文 / 李晓艳 陈晓媛
网络档案信息检索是档案信息化建设中的重要环节。良好的网络信息检索技术是档案信息检索效率和质量的重要保障。自1990年代计算机网络逐渐普及以来,网络档案信息检索的检索效率和检索质量都有了明显提升。新媒体的日益发展以及大数据技术的不断进步,极大地丰富了档案信息系统的数据资源,同时也给网络档案信息检索带来一定的挑战。
网络档案信息检索是在传统档案信息检索的基础上,引入互联网信息技术,实现信息检索方式、检索理念以及技术支持的转变。网络档案信息检索与传统档案信息检索相比,利用计算机的快速处理能力,在检索方式和检索效率上,均有显著提升。
信息检索技术最早出现在文摘索引和图书馆参考资讯工作中。1970年代,手工检索仍是档案信息检索的主要形式,这一时期检索的主要对象是文献和各类工作性书籍。计算机问世后,由于初期的使用成本和使用效率都不太理想,计算机技术并未在信息检索中获得广泛的应用。直到1990年代,计算机网络广泛普及,计算机技术的使用成本明显降低,不少档案机构引入计算机技术,由此进入了网络档案信息检索时代[1]。
在互联网技术影响下,我国档案信息检索真正实现了网络技术的创新,档案信息资源平台也由此呈现出全新的面貌。网络图书馆作为提供网络档案信息检索的主要平台之一,在网络档案信息检索的发展中发挥了重要作用。比较著名的网络图书馆有中国国家图书馆、南京大学图书馆等[2]。目前,越来越多的档案资料开始以电子档案形式保存,网络档案库存资源日益丰富,也给网络档案信息检索带来更为广阔的发展前景。
网络档案信息检索主要采取语义检索,通过输入检索关键词,在资源系统中检索出与关键词相匹配的档案资料。检索技术和档案资源库建设的不足使得档案信息检索中经常出现无效检索。大数据技术的发展,使各个档案信息检索平台的档案资料得到了很大的丰富,档案形式也更加多元化。图片、影像以及音频等多媒体形式为载体的档案信息,逐渐被纳入到档案信息资源体系中,给当前网络档案信息检索提供了更加优质的检索内容与服务形式。
信息查全率是反映检索质量的重要指标。信息查全率越高表明网络档案信息检索成功率越高[3]。当前信息检索系统所使用的布尔逻辑检索常用孤立的词汇作为检索入口,对标题、词汇的识别产生遗漏,容易出现信息检索不出的现象,给网络档案信息检索的发展带来了很大的阻碍。
信息查全率存在技术障碍,会降低网络档案检索的效率,还可能因为检索词汇的相关性不高导致信息检索出错。在进行网络档案信息检索时,用比较热门的检索词汇检索,得到的检索内容会比较全面;用冷僻、偏门的孤立词汇进行检索,由于词汇间相关性不高,很难检索出有效的档案信息。
网络档案资料系统为档案信息检索提供了重要的数据支撑,但其中的信息查全率技术障碍问题很容易导致检索内容产生遗漏。一般网络档案资料系统越大,信息检索遗漏的可能性越大,信息查全率也越低。信息查全率技术的不成熟,影响了档案信息检索的质量,成为我国档案信息检索平台发展受限的主要原因之一。
网络档案信息检索的出现,使人们获取档案信息资源更加便捷。人们在检索档案信息时常用关键词检索法,通过输入档案信息的关键词,检索出符合要求的档案资源。关键词检索可以满足用户对于文字档案信息的检索需求。由于检索内容技术的局限,在检索内容中加入图片、音频以及影像等仍存在障碍,用户的检索需求难以获得良好的满足。
通过图片、音频以及影像等检索内容进行档案信息检索,可以提高档案检索的精准度,提升检索效率。在当前网络档案信息检索系统中,对图片、音频以及影像等档案信息资源进行检索,需要先开展文字词汇转化,再利用关键词进行档案信息检索,这直接影响了档案信息检索的效率和质量。部分网络档案信息检索平台已经开放了图片检索功能,但由于技术上的不足,导致信息查全率及查准率出现明显的偏差,严重影响网络档案信息检索的发展。
进行网络档案信息检索时,从输入关键字到获取检索内容,存在一定的时间间隔,这被称为响应时间。响应时间的长短与信息检索技术有关,还受到检索设备的影响。在信息检索技术不成熟的阶段,响应时间比较长。随着网络设备的发展,信息集成处理能力的增强,目前已实现将检索响应时间控制在1秒左右,但是仍然存在很大不足。
档案信息资源越多,数据库越庞大,信息检索的响应时间也会越长。网络档案信息系统资源量日益增加,使得在信息检索时需要对大量的同类型信息进行集成处理,影响了检索响应时间。此外,响应时间还受到硬件设备的影响。硬件设备对高强度、高数量的数据信息承载能力存在不足,会延长响应时间。由于信息集成处理能力不足以及网络硬件设备落后,延长了系统响应时间,甚至导致系统崩溃。响应时间的长短既影响了网络档案信息检索的质量,也制约着网络档案信息检索的整体发展。
创新网络档案信息检索首先要在搜索引擎上入手。目前,档案信息搜索引擎具备一定判断识别关键词的能力,但在档案信息内容筛选和使用者需求判断上,缺乏智能性,因此对检索效果和质量造成一定影响[4]。
智能搜索引擎具备一定的思维能力。它可以对用户的使用意图进行判断。在检索过程中,通过对用户的检索关键词、检索图片等进行精确分析,实现检索内容向检索需求的转变,使档案信息检索的效果和质量得到提升。2009年,美国推出阿尔法搜索引擎,实现搜索语义的智能判读,成为网络档案信息搜索引擎智能化发展中的重大技术突破。
智能化搜索引擎的智能性不仅体现在语义搜索上,还体现在搜索内容、搜索需求以及个性化搜索等方面。搜索引擎智能化对数据库、信息检索系统、数据挖掘以及自然语言处理提出了更高的技术要求,以达成通过简单的检索操作获得高质量信息资源的目标。关于智能化搜索引擎,技术人员已经取得了不少研究成果,如微软的“群体搜索”、谷歌实验室的“罗盘搜索”和“整合搜索”等。这些智能化搜索引擎技术的出现,促进了网络档案信息检索的发展和进步。
基于内容特征的多媒体检索技术与传统档案信息检索相比,更加注重与多媒体技术的结合。多媒体技术的应用使得在检索内容中加入图片、语音、音频以及影像片段等成为可能,增加了网络档案信息检索内容的多样性,有利于人们对各种档案信息资源进行多种检索形式的尝试[5]。
过去,由于检索内容技术的限制,利用关键词进行信息检索占了绝大多数。在此背景下,只能满足用户对文字档案信息的检索需求,对于影像、音频等高级档案信息的检索需求,难以获得满足。目前,不少网络档案信息检索平台开放了语音和图片检索功能,但由于语音识别和图片识别技术的不成熟,并没有取得很好的检索效果。基于内容特征的多媒体检索技术可以对各种档案信息进行同源检索。比起传统档案信息检索,它在检索效率、检索速度和检索质量上都有明显的提升。
基于内容特征的多媒体检索技术,需要在现有技术基础上,增强语音识别能力,提高对图像、音频和影像等档案信息的处理识别能力。多媒体检索内容在容量大小上比关键词检索内容要大很多。在进行多媒体内容检索时,不仅需要加强多媒体档案信息数据库的建设,还需要提高多媒体检索内容的处理速度,减少响应时间,促进多媒体内容检索的质量和效果提升。
网络档案信息检索实质是在庞大的档案信息资源系统中,利用用户给定的限制条件(关键词等),来筛选出符合检索需要的内容。整个检索过程包含对大量数据的处理。因此,信息处理能力的高低直接影响到档案信息检索的效率和质量。随着网络技术的不断发展,信息在容量和数量上都有明显的提升。档案信息资源系统中,档案信息的数量日益增多,档案容量越来越大,给档案信息检索带来了很大的压力。信息处理能力不足,会增长档案信息检索的系统响应时间,如果在同一时间需要处理的信息内容过多,甚至可能导致系统崩溃。
信息集成处理能力的大小主要体现在同一时间内不同信息的处理上。同一时间内信息处理的数量越多,检索的速度越快,用户等待的时间也会越短。信息集成处理能力的运用主要是为了减少信息检索的响应时间,为用户提供更高质量的检索服务体验。大数据时代下,档案信息化程度不断扩大,网络信息数据数量日益增多。在执行信息检索指令时,系统需要处理更多数量的信息数据,这给网络档案信息检索带来了不少挑战。信息集成处理技术在网络档案信息检索中的应用,加快了信息处理的速度,提高了信息检索的效率和质量。
从过去以KB为计算单位,逐步发展到以MB、G甚至TB为计算单位,信息处理能力得到了很大的提高。信息处理集成化、系统化作为未来发展的重要趋势,可以很好地解决过去信息处理不足的问题。信息集成处理能力的提升,最终也将促进网络档案信息检索效率和质量的提升。