档案信息智能检索研究综述及发展趋势探讨

2017-01-29 14:33张倩

山东档案 2017年4期

文·张倩

学术研究

档案信息智能检索研究综述及发展趋势探讨

文·张倩

本文以时间为线索，对档案信息检索技术发展的演进历程进行了梳理，将档案信息检索领域相关的理论研究和技术应用划分为三个阶段，并在全面了解国内外信息检索领域理论研究和实践发展动态的基础上，对本项研究所涉相关概念的内涵进行了界定，阐述了档案信息智能检索的发展趋势。

档案；智能检索；演进历程；发展趋势

信息检索工作，是档案信息化建设不可或缺的重要组成部分，是关系到档案信息资源能否最终在更大范围内、更便捷地为社会所利用的现实问题。回顾档案信息检索技术发展的演进历程可以发现，其发展主要随着信息检索技术的发展而不断向前推进，并经历了手工检索、计算机化检索、网络化检索三个阶段，逐步发展形成了一些成熟的检索模型、方法与技术，特别是随着计算机和网络技术的发展，Internet上的智能搜索引擎（Intelligent Search Engine）、智能浏览器（Intelligent Browser）、学习智能体（Learning Agent）、知识共享智能体（Knowledge-sharing Agent）等人工智能产品的不断推出，使智能检索技术成为当代档案信息检索领域的朝阳技术。已有的实践告诉我们，计算机和网络技术是推动传统信息检索向智能检索转型的基石，但档案信息检索领域应用知识引擎技术尚处于起步阶段，离实现智能检索还有很长的路要走，特别是数据化、网络化技术对档案信息检索手段会产生怎样的变革？何为档案信息检索效果的最高境界？对此，国内外的理论界和产业界尚未形成共识。但在信息检索技术发展中的一个毋庸置疑的事实是：档案信息检索服务模式和技术手段的“创新”，必须把满足用户的查询需求放在首位，并作为目标追求的最高境界。

目前，档案信息智能检索技术的研发与应用还处于较滞后的状态，特别是档案信息检索手段存在着诸多不尽人意之处，致使档案信息资源的开发利用程度难以提高。如：档案馆（室）使用的档案管理系统，通常采用基于人工分类目录或“关键词+布尔逻辑”的机械匹配，前者对海量信息资源的揭示效率不高，深度极为有限；后者割裂了“字”与“词”之间的语义关联，缺乏必要的语义分析，在信息的语义和语用揭示上有较大的局限性，特别是其提供的检索入口专业性太强，需用户学会运用逻辑运算符、通配符等专业检索技巧，加之检索系统适用性较弱，检出的结果往往不甚理想，远不能满足用户之需。针对传统档案信息检索模式的缺陷和不足，将智能信息技术作为档案信息检索的核心支撑技术，加强档案信息智能检索服务平台建设，必将成为完善和提升档案信息检索手段的重要途径。

一、国内外研究现状综述

推进信息检索技术的智能化发展，是当前信息学界普遍关注的问题，但关于档案信息智能检索方面的研究则较少。如：笔者以“档案智能检索”为题名，对CNKI、维普、万方等多个数据库进行检索，只找到九篇相关期刊论文；在相关英文信息检索数据库中以“Archives （or Records or Files） Intelligent Retrieval”为检索表达式进行查询，暂未找到与本项研究相关的文章或著作；在中国国家图书馆、南京大学图书馆、超星数字图书馆等馆藏数据库中，也未检索到档案智能检索方面的专著。为了解信息检索方面的研究状况，笔者又对CNKI数据库进行了检索，找到的相关论文有四千多篇，并在中国国家图书馆数据库中检索到近千部著作。此外，围绕“智能检索”这一研究主题，笔者进一步检索了智能信息检索的研究状况，在CNKI数据库中检索出与智能检索联系较为紧密的文章有五百余篇；在中国国家图书馆、南京大学图书馆、超星数字图书馆等馆藏数据库中检索到的专著仅四本。在这些文献中看到，学者们利用中文自然语言理解、智能Agent、可视化、本体论、语义Web、数据挖掘、机器学习、知识发现、遗传算法、神经网络、XML索引技术等现代信息技术，对信息智能检索课题展开了广泛的研究，一些设计开发的智能管理系统，已被应用于图书、情报等行业的研究与开发、计算机工程与应用、中小企业管理、医疗疾病诊断等领域。伴随着计算机和网络技术特别是信息检索技术的快速普及，档案信息检索领域相关的理论研究和技术应用也逐渐受到业界的关注和重视，大致经历了以下三个不同的探索阶段：

（一）手工检索阶段（1830年—20世纪70年代初期）

信息检索发端于文献的文摘索引工作和图书馆参考咨询工作。1830年，柏林科学院出版了著名的文摘刊物《药学总览》，这一事件被研究人员普遍认作手工信息检索研究的起源。1876年，美国图书馆协会第一届大会召开，这一事件被研究人员认作规范信息检索工作的起点。1949年，莫尔斯（Galvin W.Mooers）在国际数学会议上首次提出“信息检索”（Information Retrieval）的概念。他提出的关于信息检索兼具了信息的“存储”与“检索”（Information Storage and Retrieval）两个方面涵义的论述，得到了学界普遍认同。

20世纪70年代，手工检索处于主流地位，并达到了发展的高潮。此后，在信息检索最发达的英美国家，手工检索逐渐退出主流地位。这一阶段的主要发展特点：一是以印刷文献（如期刊、图书、专利、会议、学位论文等）为主要检索对象；二是以各类目录性工具、文摘、题录和书为可利用的主要检索工具；三是图书馆的咨询部门成为开展信息检索的主要服务机构。

我国学界开展档案信息检索研究，大约始于 20 世纪 30-40 年代。这一期间，滕固、程长源、龙兆佛等学者开始关注档案管理的理论研究。如：1935年，史学家滕固提出的“档案学”一说正式问世，并得到众多学者的公认。1936 年，程长源的《县政府档案管理法》论著，被视为我国研究档案信息检索理论的发端。1962年，陈兆祦的《档案管理学》论著，首次将档案管理工作的内容概括为六个环节，并提出了一套档案管理工作的原理与方法。需要指出的是，受时代背景所限，我国这一时期的档案信息检索理论研究，主要是借鉴欧美在图书、档案管理方面的经验，对档案信息检索的编目问题进行了探究。

（二）计算机化检索阶段（20世纪50年代初期—20世纪90年代初期）

1946年计算机诞生后，计算机信息检索技术随之应运而生，其作为一个独立领域的地位在国际上迅速得以确立。

计算机信息检索系统的应用，是信息检索步入现代化的一个重要标志。其主要经历了脱机批处理检索（Off-line Batch Processing，1954—1964年）、联机实时检索（On-line Real Time，1965-1975年）和联机网络化与多元化信息检索（1975—1990年）等不同发展阶段。这一时期值得关注的事件有：以英国数学家和逻辑学家乔治·布尔（George Boole）命名的布尔（Boolean）检索技术的诞生。这项技术不仅逐渐发展成为各种大型联机检索系统，而且成了网络搜索引擎的标准检索模式。这一阶段的主要发展特点：一是各类机读数据库被作为检索对象；二是各类情报所、联机服务中心被作为新兴信息服务机构；三是信息检索用户逐渐由专业人员向终端用户转移，信息检索的社会普及程度日益提高。

我国档案信息检索研究勃兴于20世纪80年代。1985年，国家档案局颁布的《档案著录规则》，标志着我国档案检索工作与研究上升到国家高度。同年，邓绍兴的《档案检索》论著被视为国内档案检索学科形成的标志。其后，少数研究者开始涉足档案信息智能检索研究领域。1988年，中央档案馆采用模糊运算开发的档案自动编目检索系统（简称CAFC系统），为档案智能检索的实现开辟了一条新途径。[1]1989年，张柏雄提出了智能化、高速检索子系统（IRS）所遵循的设计原则和设计方法。[2]1990年，中央档案馆等单位联合开发的OAS光盘档案全文存贮与智能检索系统，使检索软件具有了初步的人工智能。[3]1991年，国防科工委档案馆开发的档案智能化管理信息系统，增加了档案主题概念检索功能，构建了知识库管理模式，实现了基于专家规则的智能检索机制和相应的学习机制。[4]1994年，汤道銮等设计的档案检索自动化系统，可分为档案目录组织自动化、目录检索自动化、全文检索自动化、全文著录与标引自动化。[5]同年，朱久兰将反映档案信息特征的主题词，作为知识存储、知识管理和应用的手段，为人工智能技术在档案自动化管理中的应用作了有益尝试。[6]1996年，马绪超论述了具有人工智能的专家系统（ES）等技术在档案信息检索中的应用效果。[7]需要指出的是，这一阶段虽有一些单位开始使用计算机技术对档案信息进行辅助管理，但国内档案信息检索方式仍以手工为主，档案信息检索的研究对象仍以纸质档案为主，检索技术的总体发展状况尚处于对传统手工检索的探讨与总结层面。

（三）网络化检索阶段（20世纪90年代初期至今）

20世纪90年代初，以Internet为代表的全球性计算机网络广为普及，不仅迅速推动了信息检索的新技术发展，而且信息检索的主流平台都先后将自己的服务转入WWW为核心的网络应用环境之中，信息检索开始迈入数据化、网络化检索时期。目前，互联网已步入Web2.0时代，以人工智能为代表的信息检索自动化技术已是网络信息检索的基础技术，如超文本/超媒体技术的应用、基于内容的多媒体信息检索系统的开发、自然语言的理解与处理、海量网络信息的组织与检索、语义检索与逻辑推理、知识检索服务等，已成为信息服务的主要议题。

随着社会信息需求的急剧增长，档案信息检索实践活动也发生了日新月异的变化。如：电子档案信息组织与管理、网络档案信息检索、档案信息检索自动化等新技术、新方法扑面而来。这些新情况、新事物为推进档案信息检索理论研究，提供了大量生动的实践素材。国内不少档案学者投入大量的心血与精力，对档案信息检索的相关技术难题进行了积极探究，不仅有相当数量的论文、专著、教材发表或出版，而且一些地方的档案管理机构还研发了功能较先进的档案信息检索系统。如：1999年，谢华撰文指出著录标引的丰富是解决智能检索中因属性过少而导致“瓶颈”现象的途径。[8]2001年，冯惠玲撰文指出目前的计算机档案信息检索系统大多采用检索语言或检索语言与自然语言并用的方法，但自然语言将成为未来档案文献检索的主要方式。[9]2006年，邹吉辉撰文阐述了档案信息检索系统向信息智能检索、多维检索系统、社会功能人本化方向发展的趋势。[10]2010年，陈丽撰文提出了档案信息检索自然语言化的五种实现方式。[11]2011年，肖秋会撰文介绍了计算机档案信息检索系统的设计与开发等。[12]2012年，潘士萍设计出了递进式档案信息检索教学实验项目，并提供了可资研究参考的档案管理机构检索工作范例。[13]需要指出的是，这一阶段国内虽开始关注对计算机和网络共享环境下的档案信息检索技术研究与开发，但多数论著以介绍档案信息检索的基础理论、方法、技术为主，针对智能检索技术的专题论述不多，实践案例极为少见，或仅限于表层研究，缺乏实用性。

综上所述，虽然一个多世纪以来，国内外学者对信息检索问题作了较广泛、深入的研讨，但从研究文献的总体情况来看，研究所涉的领域范围大同小异，且多为叙述性介绍，尤其是国内档案学界仅将档案信息检索的过程作为研究对象，主要研究传统载体形态、记录方式的档案及其检索方法。毋庸讳言，档案信息检索研究不仅始终处于滞后状态，而且普遍借鉴了图书馆学、情报学等领域关于信息检索的研究成果，并明显留有对相关学科及技术变革萧规曹随的痕迹。如：近年来国内一些论著对信息智能检索技术虽有描述，但侧重点多数集中在基本理论、方法方面，很少见诸研究信息智能检索技术的实证性论著，而档案信息智能检索技术研究的论著更是屈指可数。目前，国外一些著名IT企业研发出的智能检索工具不容小觑。相比而言，国内的档案信息检索系统专业性强、透明度差，缺乏良好的交互性。

二、概念界定及发展趋势

考察文献发现，人们对智能检索的概念论述呈各执见解之态，特别是档案信息智能检索研究处于滞后状态，其概念尚无规范的定义。通过学习、借鉴业内专家学者对智能检索概念的介绍，我们将“档案信息智能检索”的概念理解为：其由抽词检索与全文检索发展而来，能够融合档案学、图书馆学、情报学、计算机科学等相关领域的先进理念，应用计算机和网络等先进的技术与方法，通过实施语义理解、逻辑推理与学习、数据挖掘、知识发现与关联等诸多环节，对档案信息进行智能化的获取、存储、处理与利用，实现在更高层次上模拟、应用人类的认知功能和智能活动，满足用户的各种档案信息个性化需求，为广泛的应用领域提供高效率、高质量的档案信息知识检索服务。通过对已有实践的研究，笔者认为档案信息智能检索未来将在以下几个方面深入发展。

（一）自然语言理解能力

自然语言理解（Natural Language Understanding）是智能信息检索系统的基础。自然语言、分类检索语言和主题检索语言是三种不同的语言系统，三者的标识和组织方式虽不一样，但本质都是同样的主题概念标识系统，且关键词、分类号、主题词都可用来表示某一文献信息的主题概念。这三者之间，存在着概念对应关系，即兼容关系。

传统档案检索采用的检索语言属于高度规范化的受控语言或人工语言，其主要作用是通过对自然语言进行规范化处理，使标引用语与检索用语相匹配。如：《中国档案分类法》和《中国档案主题词表》就是两种不同的检索语言。分类检索语言的特点是：把各种概念按知识分类进行系统组织和排列。主题检索语言的特点是：把各种概念按字顺排列而不管其相互关系如何，在词表中只存在“用、代、属、分、参”等简单联系。传统档案检索语言的主要缺点：一是对书写形式有严格的要求，特别是标引难度大、速度慢，需标引人员具备阅读、分析、概括、提炼档案主题和准确归类的能力；二是除强调词汇控制外，其构造和维护是一件非常艰难的任务；三是需将检索用语转换成与标引用语相同的语言，才能进行相符性比较而检出用户所需的信息，对专指性检索需求不如自然语言。

将自然语言理解能力模块嵌入档案信息检索系统之中，其主要功效可体现为：用户直接使用任意自然语言问句（“语句搜索”Sentence Search），就可实现跨数据库检索；档案管理者则可利用系统实现各种不同受控词表、不同结构的知识组织系统（Knowledge Organization System，KOS，是一种基于概念语义网络的新一代情报检索语言与自然语言的结合体）之间的兼容转换，即通过建立检索词汇之间的语义映射和互操作机制，从档案文献中直接抽词、赋词，并进行自动标引、自动分类、自动全文检索等。

需要指出的是：自然语言与传统档案检索语言相比，其具有查准率高、通用性广、易用性好、词汇无滞后、便于实现自动标引等诸多优点，但自然语言也存在着显著的缺点，如词形词义不规范，存在语义模糊现象，不能全面地显示词汇间的语义关系等。因此，完善和提升基于语义、语用知识的智能信息处理机制，是实现档案信息智能检索的关键所在。

（二）人工智能推理能力

传统档案信息检索一般要求检索者对用户提出的检索事件进行分析，并掌握有关该事件的基本情况及背景信息。而档案信息智能检索是建立在可用自然语言进行概念性全网络检索的智能知识库之上的，其依赖特殊形式的人工智能推理技术，根据存储的事实、用户的检索行为等，建立高效率、高品质的检索模板库，利用概念逻辑和人工智能逻辑实现多种语义推理、逻辑推理、挖掘及知识发现，选择最优或最经济的途径，引导智能检索的高效执行，演绎出所需的答案，以帮助用户改善策略，实现检索过程的自动化。

机器学习技术是档案信息智能检索技术智能化的基础，可从用户与系统的交互中获取知识，使系统适应环境的变化而发展变化。目前，自动标引和自动分类的算法智能化程度仍不高，需要引入“本体”等技术来增强知识库的推理功能。

（三）知识集成处理能力

智能检索与传统检索最大的区别在于：它在用户与网络信息资源之间创建了一个知识库，即一个元数据的集合。拥有知识是智能信息检索系统区别于一般信息检索系统的重要标志，而知识的质量与数量又是决定其性能的关键因素。

传统档案信息检索一般是将确立待检标志看作是检索工作的入口，即以档案上各种经过规范化整理的标记符号来作为检索线索。这是一种基于倒排索引采用语词匹配的检索模式，不提供基于知识及推理的检索方法。

档案信息智能检索，是指依据知识内容和知识关联来求解问题的过程（不是简单的字符匹配查找过程）。它的知识库提供的是一种主动式、高效率的知识服务。这种知识库与传统数据库之间的差别迥异，一般分为：综合文献知识库、专业知识库、规则库、语言知识库、用户知识库。系统将各种档案信息的检索语言放在专业知识库和规则库，在人机接口处，可应用人工智能技术模拟专家处理问题的认知功能。如：接受用户的查询问题时，不受任何人工命令语言或语法的限制，能明白用户以自然语言方式表达的需求，识别用户的认知空间，并可选用合适的检索语言生成需求模型，然后把系统对用户的回答、推理结果及对结果的解释等进行逆转换，以用户可以理解的方式输出给用户。当前，急待引入超链接、标记语言、互操作等技术来完善和提升系统的智能功能，加速推进知识库由静态走向动态、由线性走向网状，以利实现知识库的不断更新换代。

面对大数据的挑战，开展档案信息智能检索技术应用研究，既是档案管理理论创新的内在要求，也是档案管理实践创新的迫切需要。当前，现有的档案信息检索建设现状，已不能满足大数据时代下对海量档案信息资源的管理与利用，迫切需要相关智能技术的引入。尤其是档案信息智能检索领域的理论研究成果很少，且多为基础性论述，亟待进行技术创新方面的实证性研究。此外，档案信息检索实践中面临诸多矛盾和问题，急盼研发成果给予指导，以利加快创新成果的应用转化及解决技术难题。

●

[1]郑晓威等．模糊运算应用于档案智能编目检索系统的理论探讨与实验[J]．档案学研究，1989（4）：35-42．

[2]张柏雄．档案信息库系统的智能检索[J]．微电子学与计算机，1991（7）：33-36．

[3]王信功．《OAS光盘档案全文存贮与智能检索系统》的研制与应用[J]．档案学研究，1992（4）：3-4．

[4]李少杰．《档案智能化管理信息系统》的功能与特点[J]．档案学研究，1992（2）：70-73．

[5]汤道銮等．档案全文自动著录与智能标引初探[J]．档案学研究，1994（2）：39-41．

[6]朱久兰．档案信息智能检索[J]．档案学研究，1994（4）：57-58．

[7]马绪超．人工智能及其在档案检索中的应用[J]．黑龙江档案，1996（12）：36-37．

[8]谢华．电子档案的智能化初探[J]．湖北档案，1999（10）：11-13．

[9]冯惠玲．档案文献检索[M]．北京：高等教育出版社，2001:94-96．

[10]邹吉辉．论档案信息检索智能化趋势[J]．浙江档案，2006（4）：6-7．

[11]陈丽．档案信息检索[M]．成都：四川人民出版社，2010：15．

[12]肖秋会．档案信息检索[M]．武汉：武汉大学出版社，2011：155-157．

[13]潘世萍，贺真．档案检索实验教程[M]．北京：北京师范大学出版社，2012：3

*本文系2013年江苏省社会科学基金项目“云计算环境下数字档案资源管理的理论与实践研究”（项目编号：13XWC018）和2016年度江苏省档案局科技项目“区域性高校数字档案资源共享平台建设研究”（项目编号：2016-13）研究成果之一。

（作者单位：南京艺术学院综合档案室）

档案信息智能检索研究综述及发展趋势探讨

一、 国内外研究现状综述

二、概念界定及发展趋势

一、国内外研究现状综述