刘莎
(晋中师范高等专科学校 晋中 030600)
信息检索是将数据集中的信息以某种方式组织并按照用户需求将相关信息查找出来的过程,其中相关性是一个核心研究课题[1][2][3],相关性是指用户需求与检索结果之间的匹配关系,这种匹配关系可能是多维的、动态的、复杂的、可度量的,信息检索的实质是信息过滤。档案信息检索是按照用户需求在大量档案中查找相关性较大的文件和相关信息,档案描述及其索引是档案信息检索的基础[4],档案描述是在档案中提取所需的索引信息并记录它;档案索引是在档案描述过程中对档案的语境和主题进行分析和选择,并通过概念转换提供标准化的语言,索引揭示了档案的分类属性和主题,为档案检索提供了一种途径[5]。
在检索方法方面,大量相关文献集中在通过组织信息源的方式提高检索性能,这些方法可以分为两类,检索工具的构建和语义信息的扩展。在检索工具的构建方面,Silvia S.K.讨论了以色列档案馆面临的问题,包括检索工具的构建和综合词典的构建[6],Silvia还研究了通过使用同义词典索引从元数据和档案的内容中搜索信息。本文在Silvia研究基础上,提出基于ISAD和ISAAR构建档案描述与信息检索系统。Ushasi Chaudhuri寻求在某些机构,如文化遗产机构,促进信息目标的检索[7],牛金凤基于事件的信息组织方法分析了事件与功能的区别,讨论了使用事件作为组织和描述档案信息的来源;并重新设计了两种描述归档元数据的方法。
语义技术的扩展一直是信息检索研究的热点之一,马仁杰等研究了档案检索上下文分类在门户或内部网络发展中的适应性,旨在整个信息产业中建立更强的跨学科关系,促进信息检索学科的发展[8][9][10]。房小可等指出了电子档案系统档案分类的缺点,呼吁通过捕获档案来源的语义信息扩展来扩展档案分类定义,打破基于纸张的档案保留规则的约束,提高信息检索的效率,实现档案文件记录、保存、档案实践转换的项目级管理[11][12][13]。张海涛提出了一个基于可扩展标记语言的档案信息系统协作框架。该框架在EAC-CPF特性的基础上,利用EAC-CPF共享上下文和权限记录,促进用户与互联网的互动体验;支持辅助导航和主题映射,并提供一个语义丰富的访问层,以确保不同档案的位置[14]。Cao xin等回顾本体论理论的内容,包括该方法的采用、构建、检索及其在语义上下文中的应用,提出的本体论方法对政府和机构档案工作具有很好的指导意义[15]。
信息检索的目的是向信息用户提供搜索结果。然而,在档案信息化、数字化的背景下,档案检索结果内容庞大,信息用户难以遍历所有的结果,其关键问题是检索方法不好[16][17][18]。针对这个问题,本文构建了一种用于档案信息检索的高阶神经网络模型,可以有效地过滤影响检索结果可读性的冗余信息,提高检索效率。此外,传统档案检索方法中很少有对检索结果进行重要性排序的设计思想,信息用户仍需处理大量检索结果,降低了工作效率,本文建立了符合高阶神经网络模型并按照用户检索条件和要求对检索结果自适应排序的算法模型。本文共分为四个部分:第一部分阐述了档案信息检索发展的最新动态和现存方法存在的不足;第二部分介绍了高阶神经网络模型的通用框架,并在此基础上构建了基于高阶神经网络模型的档案检索算法;第三部分说明了数据来源和实验方案,并将提出的方法与传统方法进行了对比分析;第四部分对本文进行了总结。
神经网络模型善于处理复杂的非线性问题,近年来得到了广泛应用,一般神经网络模型是通过增加神经元个数满足强线性化映射要求,神经元的增加会提高网络模型的训练成本,而且不利于改善泛化能力。为了突破一般神经网络模型中只能通过神经元与神经元之间相互连接表达映射关系的局限性,进一步提高神经网络性能,研究人员在网络模型中加入了类似生物神经系统的超微结构并利用数学方法描述形成了高阶神经网络模型。积单元高阶神经网络是高阶神经网络的一种,它可以被看作是带有隐藏层的前馈神经网络,隐藏层中的神经元是输入节点不同阶数的积,这种结构既保留了前馈神经网络收敛速度快的优点,又具有较强的存储能力和高度的非线性映射能力。积单元高阶神经网络包含输入层、隐藏层和输出层,其中隐藏层由输入层节点乘积组成,输出层则由求和得到,其网络模型结构如图1所示:
图1 高阶神经网络结构图
综上所述,一般的高阶神经元网络模型具有以下特点:
(1)输入节点可以是多维的,网络结构是一个固定的三层网络(包括输入层)。
(2)高阶神经网络中的神经元采用一般的计算公式,这个公式由代表不同含义的 参数组成;每个神经元可以根据不同的需要选择不同的参数,在多维空间中显示不同的超表面形状。
(3)神经网络不再由单个神经元模型组成,同一个神经元可以形成特定的功能模块来解决特定的问题,几个功能模块可以形成一个复杂的神经网络来解决复杂的问题,就像生物神经细胞的不同形状和功能,使得神经网络模型的构建更加灵活和方便。
(4)高阶神经元通常只对输入空间局部敏感。这意味着只有当输入向量落在输入空间的特定区域时,高阶神经元才能产生非零响应。
(5)高阶神经元对输入与中心的广义距离进行非线性变换,这种非线性变换是可调的。
档案信息检索的实质就是过滤掉相关性小的档案文件,然而,对于检索用户来说,在数量巨大的档案文件中检索结果仍然太多,更重要的是,这些检索结果中很多是冗余信息和重复文件。因此,需要设计二次过滤策略以进一步减少减少结果,提高检索效率,提供价值密度更高的检索服务。档案文件检索一般分为卷级检索和文档级检索,本文以档案文档为例说明基于高阶神经网络模型的二次过滤策略。
步骤1:档案文件训练样本作为高阶神经网络模型的输入,质量受到档案整理者的语言表达能力和专业技能等各种因素影响,其中专业技能包括档案描述水平,档案描述标准,档案分类知识,档案信息与档案文件的一致性等。根据样本质量设置相应权重训练网络模型,以提高模型精度。
步骤2:衡量模型优劣的两个指标是泛化能力和训练实时性,为了提高泛化能力和检索精准度,要以最小信息损失为原则;为了提高训练实时性,模型要尽可能减小计算量,高阶神经网络模型的计算量很大程度上取决于模型阶数,因此要最大程度降低模型阶数;只有在同时兼顾这两方面的基础上,才能设计出理想结构的模型,并最终确定神经元个数和模型阶数。
步骤3:在档案信息化和数字化背景下,档案检索对象往往具有较大的文件个数和内容容量,二次过滤对档案信息检索质量具有重要作用。本文利用高维空间上的广义距离代表相关性,为输出层不同神经元分别设置相关性阈值和激励函数。相关性很大代表信息冗余,相关性很小代表信息价值低;而不同阈值是根据检索用户需求确定,反映用户实际需求。
在学校网站采集近10年来共5000条各类通知公告和新闻稿等,按照业务类型分成教学类、科研类、招生就业类、交流合作类、综合类等5类文档,教学类关键词包括“教师”和“课程“,科研类关键词包括“项目”和“申报”,招生就业类关键词包括“考试”和“招聘”,交流合作类关键词为“讲座”,综合类关键词包括“公示”、“通知”和“会议”,如表1所示。
表1 档案文档分类和关键词情况
假设档案文档的方向权重值分别为:
其中W11和W12分别表示教学类关键词“教师”和“课程“的方向权重值;W21,W22分别表示科研类关键词“项目”和“申报”的方向权重值;W31,W32为招生就业类键词“考试”和“招聘”的方向权重值;W41为交流合作类关键词“讲座”的方向权重值;W51,W52和W53为综合类关键词“公示”、“通知”和“会议”的方向权重值。
通过CG方法、DCG方法、NDCG方法和本文提出的高阶神经网络方法对样本数据集进行类别区分,得到的结果如表2所示。
从表2中可以看出,各种类别文档的分类准确率都是提出方法最高,NDCG方法次之,DCG方法再次之,CG方法最差,这是因为档案文档之间本身是由相关性的,这些相关性通过描述越多,分类准确率越高,而提出的基于高阶神经网络方法可以更好的表达各种层次的非线性关系,从而获得了最高的准确率。纵向来看,教学类和交流合作类的准确率高于其它类别,这是因为这两类文档跟其它类文档的相关性小,相对独立,更容易分类。
通过CG方法、DCG方法、NDCG方法和本文提出的高阶神经网络方法对样本数据集进行更为细致的关键词和类别判断,得到的结果如表3所示。
表3 类别和关键词的分类准确率
从表3中可以看出,分类准确率基本是各类关键词的平均值,说明这几个关键词较准确表达档案文本的特征,10类关键词的分类准确率依然是提出方法最高,NDCG方法次之,DCG方法再次之,CG方法最低,说明高阶神经网络在关键词分类上也具有良好的描述和表达能力。
首先,对现有的档案检索技术进行了分析,并指出它们的优缺点,通过对检索技术的深入研究,发现关键词的相关度对信息检索结果的排名具有重要作用,提出基于高阶神经网络的档案文件检索方法,丰富了一种档案及信息检索技术模型。该方法通过计算档案文件的中心权值和方向权值并在高阶神经网络模型中进行训练,有效解决了信息检索的查询结构问题,优化了检索过程,提高了信息获取效率和准确率。然后,将关联算法应用到学校网站采集的5000份档案文件中,提高了档案检索过程的智能化和高效性,为开展档案信息管理的信息化建设提供了良好的范例。最后,将本文的档案检索算法与现有的三种检索方法进行了比较,并对实验结果进行了分析和评价,验证了本文提出方法的有效性,本文提出的档案信息检索方法具有很高的实用价值,可推广到其它信息检索领域,具有很大的拓展空间。