文/神华神东煤炭集团公司档案室 王军
档案检索系统深度开发应用研究
文/神华神东煤炭集团公司档案室 王军
本文简单介绍档案检索系统深度开发的指导思想和目标以及档案检索应用系统的开发内容,分析在进行档案检索系统深度开发工程设计中的原则以及技术指导,研究档案检索系统深度开发工程的创新性。
档案检索;系统开发;创新
一位作家曾说过:“档案是历史的生命”。在企业工作中,档案不只是各种各样的历史记录,也是现在甚至将来,领导制定相关政策决定的参考,是将来对曾经所做工作的考核的依据。也是科学技术人员针对企业发展进行科学研究的第一手资料。做好企业的档案管理工作对于研究制定科学合理的市场战略,提高企业在经营管理中的决策力至关重要。而且有利于提升企业的综合实力。因此现在企业对于档案管理和档案检索查阅工作越来越重视。在实际工作中,要想查阅企业的历史档案,常用的检索方法就是使用关键词进行检索或者按照档案归档时的整理目录进行逐级地查找。进行一次检索工作需要花费大量的时间精力,而且检索效果比较差,查询结果不够明确清晰。为了更好更方便地利用企业的历史档案,发挥这些档案的巨大潜在价值,国家在21世纪初就颁布了档案行业的参考标准《归档文件整理规则》,为档案管理工作指明了方向,提供了思路,《规则》的根本管理原则就是“简化整理、深化检索”。随着计算机技术的广泛使用,数字档案成为行业和企业档案的主要形式。利用计算机技术可以更高效地实现对档案的检索。现阶段为了更好地满足人们对于档案检索的要求,需要对检索系统进行更深层次的开发,从而建立相关的规范,对不同的档案进行整合,建立综合性和专业性更强的数据库,更好地发挥数字档案资源的作用。
(一)指导思想。对档案检索系统进行深度开发是为了提升优化现有系统的性能,设计一个效率更高,使用更方面的检索系统。在对档案检索系统进行深度开发时要注意工作的四个指导思想。
1.统筹规划。档案的建立和检索是一个复杂性比较高的工程。档案根据时代不同,种类不同,部门不同等方面分为许许多多的种类,在进行深度开发的时候要考虑档案的分类和检索的准确性。工程建设需要采用国际通用的“ISO9001”质量管理体系进行统一管理,从而确保工程建设的质量。要对工程建设中的“需求分析、设计、测试维护”等不同阶段的主要内容进行统筹规划,按照统一的标准进行设计和管理,从而更好地实现数字档案的整合和对数据资源价值的挖掘。
2.需求导引。进行档案检索系统深度开发的关键就是提高档案检索的效果和效率。而实现这一目的需要对档案资源进行分类索引,尤其是档案的关键词、短语等。要将这种供检索使用的索引需求体现在设计中。
3.科技创新。检索系统的深度开发主要依靠的是高新计算机技术的支持。在深度开发过程中会使用到大数据的存储、数据容量的合理压缩、数据传输及隐藏、数据的科学加密以及先进的文档处理等技术。这需要进行大量的科技创新,从而更好地保障档案资源的信息安全以及提高档案的合理利用率。
4.持续发展。之所以对档案检索系统进行更深层次的开发利用,就是为了提高档案资源使用的便捷度。而系统是否能够为企业内的用户提供便利,只有用户最有发言权。所以关于系统的深度开发是一个持续性的任务,在开发过程中要经常进行用户的体验使用,在使用过程中发现问题逐渐提高系统的性能。从而真正提高系统的专业性和方便性,实现系统开发的持续发展。
(二)系统深度开发的目标。通过分析以上四点进行检索系统深度开发的指导思想,可以确定系统开发的目标主要有三个。
1.实现数字档案资源的整合与深度挖掘。所谓“档案检索系统”,其最关键的基础和前提是“档案资源”。没有档案资源,进行系统深度开发没有任何意义。现阶段,系统使用的档案资源主要是数字类的资源,一方面包括之前纸质档案库转换成的数字档案资源,另一方面也增加了之前没有的声音影像等影音资料,数字资源的内容更加丰富。利用现代计算机技术,将不同部门,不同站点,不同分公司的数字资源进行联网共享就可以构建出整个企业的档案库,实现档案的科学整合,而且有利于后期对档案信息的价值进行更深层次的挖掘。
2.创新知识获得方式,提供多样的信息形式。在数字信息库建立之前,企业用户要想查阅企业的相关档案,只能在实体档案库获得纸质的档案。现在通过数字信息资源的整理和新型检索系统的建立,用户只要有企业档案查询的账号就可以随时随地调取任何站点的数字档案,不用考虑时间和地点的限制。
3.一站式检索企业的所有数字档案。对档案检索系统进行深度开发后,可以实现企业各部门,各站点所有数字档案的联网。在进行档案检索的时候,可以像搜索引擎一样展现档案库中存在的经系统查询到的所有结果,使得档案检索既快又准,提高企业档案的综合利用。
对档案检索应用系统进行深度开发的主要内容包括四部分。
(一)可以实现数据整合和深层次挖掘的平台。现阶段,企业的档案管理系统包括多个不同功能的数据库。包括数据仓库、文本数据库、图像影音数据库等基本的信息数据库,还有用于联系各种不同数据库的关系数据库等。系统在使用的过程中主要是依靠管理调用关系数据库来实现各种检索功能,这也是检索系统运行的基础。实际使用中各种数据库中的异构数据无法实现兼容,利用粗集理论不能实现连续数据的处理。因此在进行系统深度开发的时候要利用新型技术建立新的数据处理平台,从而实现对数据库的数据的整合和挖掘。
(二)建立前端查询以及搜索引擎系统。建立一种跟百度和谷歌类似的查询窗口,方便用户在这个平台系统中进行基本的账号注册以及进行简单的档案查询并获得初始的检索结果。搜索引擎系统利用采集程序和访问程序,定时对系统内的所有数字档案进行访问查阅,获得相应的信息,并将这些信息整合建立索引数据库,作为进行档案检索的基础数据库。当用户进行索引操作的时候,根据键入的关键词,找到匹配数据,并将索引对应的资源库的摘要和地址反馈给用户,在检索结果中呈现.
(三)建立完善的中文分词系统。企业的绝大部分档案资源是中文资源或者影音资源。系统的用户也主要以企业内的中国员工为主。因此在实际进行检索系统应用的时候主要是以中文检索的方式。由中文搜索引擎的使用经验可知,利用中文进行检索的结果总是与我们的检索目标存在差异。这主要是因为计算机检索系统的识别问题。中文的句子表达以整句话为一个单位,而系统进行识别的时候则是以单个字或者单个词组为一个单位。举例来说,“我是一名管理员”,英文的表达方式是“I am an administrator”,计算机系统对英文的识别可以很方便的对每个单词进行识别,确认关键词。但是在进行中文识别的时候,如果分词不准确,可能会出现“名管”“理员”这样的错误识别。所以在提高系统对中文词汇的识别能力,并进行正确合理的切词。在系统深度开发的时候注意索引数据库的建立,通过自动导入或者人工添加的方式,加入一些常用的企业相关的索引关键词,从而提高系统对于中文分词的准确性。
(四)后台管理系统。任何系统都需要一个后台管理系统,便于日后对于系统的不断完善,在出现故障的时候也可以直接进行系统维护。对检索系统建立后台管理系统,一方面是便于档案检索系统用户的管理以及系统数据库的更新管理,同时也可以根据用户需要设定不同的访问权限,保障企业档案的信息安全,避免关键信息的外泄。
(一)档案检索系统深度开发工程设计原则。主要如下:
1.系统的先进性:档案检索系统的深度开发就是为了方便未来的使用。为了在未来减少再次开发的次数,提高系统的适用寿命,需要使用一些先进的开发技术,保障系统的先进性。现阶段在进行档案检索系统中比较常用而且可靠性比较强的核心技术有组件式开发技术、中文分词技术以及GSML文档处理技术等。
2.可扩展性以及信息开放性。利用组件式开发技术,将系统分为三层结构:用户层、数据层和中间层。用户层以客户端为主,便于客户进行操作同时获得检索的数据,不提供数据处理功能;数据层通过对数据库进行访问,获得相应的数据;真正的核心部分是系统的中间层,对数据层获得的数据进行科学处理,并通过用户层的客户端显示给用户,实现系统的开放性。当需要对系统进行升级维护的时候,用户层和数据层不需要进行任何操作,只针对中间层进行,从而提高系统的升级速度,保证系统的正常使用。同时也可以通过增设中间层的方式来对系统进行扩展。
3.稳定性和安全性。上面提到,系统的核心层面是中间层,其他两层结构对系统运行影响不大。进行深度开发的时候利用集群技术对系统中间层的组建进行配置,可以对中间层在运行中的动态负载进行平均分配。同时可以在不同服务器之间实现功能请求的分享,这样既可以在不影响系统运行的情况下替换故障服务器,也可以在正常运行的情况下增设新的服务器,扩展系统的运行内存,从而实现系统运行的稳定性。系统的安全一方面是体现在访问的安全,一般是利用DES等认证和加密技术来实现,避免异常访问;另一方面是档案系统中原始数字资源库的安全,为了避免数据的丢失和破坏,对数据库采用多重备份机制以及丢失数据的恢复机制,同时建立相应的日志记录系统,出现问题可以找出原因进行解决。从多方面保障系统的安全性。
4.易用易管性。在设计操作界面的时候要考虑用户的使用习惯,PC端推荐使用windows操作系统,如果开发手机端推荐使用安卓和苹果系统。在操作流程实际中以向导式设计为主,便于客户使用。同时设置“联机帮助”功能,通过预置的帮助手册为用户使用提供指导。针对管理任务,合理增加系统默认勾选对象,尽量实现对管理任务的“一键式”管理,从而提高管理的效率,使系统管理更加方便。
(二)档案检索系统深度开发工程技术指标。主要如下:
1.多种操作系统和多种系统数据库的支持。实现档案检索系统在多种操作系统上的使用,PC端以Windows系统为主,同时要兼容使用国产Linux系统和苹果电脑系统;开发手机端使用,兼容安卓和苹果手机系统。在数据库支持方面要支持现阶段使用最多的Oracle,Infomix,Db2和Mysql等数据库。
2.支持不同数据源的检索。一方面可以通过对数据库搜索的方式进行检索,另一方面要实现通过文件目录地址的方式进行检索,这种方式一般会更加地准确和高效。针对于不同类型的文件,系统深度开发的时候要设计不同文件格式之间进行转换解析的工具,以便于在检索的时候对各类文件的数据内容进行检索,避免出现遗漏。
3.检索服务的智能化。利用先进的智能技术提高档案检索的效率和准确度。常用的智能技术有相关度分析技术、扩展查询技术、信息聚类及分类技术和语义规则库技术。以语义规则库技术为例,利用该技术可以对键入的检索关键词进行分析判断,在进行档案检索的过程中会同时检索该关键词的同义词或者近似词,从而扩大了档案检索的结果,又避免了不必要的检索结果,提高了检索结果的准确性。利用这些只能检索技术可以满足大部分人对于档案检索的需求。
4.数据高效处理。利用先进计算方式和合理的索引设置对数据库数据进行快速处理。
5.中文分词技术。为了适用于企业用户,检索系统必须具备中文分词技术。通过在不断改进的过程中完善检索词库,依靠词库和更先进的分词技术提高中文分词的准确性,也提高系统的运行效率,节省用户检索的时间。
6.提高更多检索语法。多字段组合检索是比较常用的检索语法,能够使检索结果更加准确。通过系统深化增加检索的语法种类,增设操作符、运算符等语法检索规则。也可以设置特定检索规则。
7.操作简单、维护方便。检索操作要符合用户使用习惯,操作起来容易上手。通过构建合理的后台系统,保证在出现故障的时候可以进行后台维护。
一方面真正实现“全文检索”的彻底转变。通过对档案检索系统进行深度开发,可以实现整个企业档案的联网,改变原来针对独立数据库的单一检索模式。在此基础上可以实现对企业档案数据的整合,有利于对档案资源的检索查询以及对整体档案价值的更深层次的挖掘。另一方面依据在进行系统深度开发中的实际工作,可以整理出一套既符合理论依据又具备实践经验的标准规范。作为一种规范创新,这些标准可以为以后其他企业进行相应的系统开发提供参考,有利于提高整个档案管理行业的工作水平。
与此同时,通过对系统深度开发工程的实施,能够有效改变企业在档案管理和档案检索上的现状,打破一直以来档案管理和查询中检索范围受时空限制的局限。为档案行业的发展打开了新的局面,也为日后整个行业发展积累了经验,奠定了基础。同时使企业职工甚至整个社会对于档案部门和档案的重要性有一个全新的认识,提高了整个行业的社会地位。
企业通过对档案检索系统进行深度开发,于企业内部来说能够充分利用长期以来积累的企业档案数据,对未来企业制定规划决策和研究技术革新具有重要意义;于整个档案行业发展,能够提供一种参考,促进整个行业发展。【参考文献】
[1]王占花.论档案数字化管理系统开发与实现[J].黑龙江科学,2014(12):197-197.
[2]张帆.档案信息资源共享平台问题[J].档案管理,2013(3):85.
[3]王朝鹤.企业电子档案管理信息系统的设计与实现[D].重庆大学,2013.10.7666/d.Y2397983.