大数据时代档案管理系统分布式文件存储的几点思考

2022-04-11 07:36
智库时代 2022年16期
关键词:档案文件储存分布式

韩 雪

(山东省聊城市人民医院)

随着信息技术的不断发展,大数据时代下,网络应用更加频繁,在网络信息影响下,档案文件逐渐向数字化方向发展,同时档案资源也在不断增加。为使档案管理的效率得到提升,应结合实际情况,可以通过分布式文件储存技术对档案进行系统的分析和管理,提升档案筛选和储存效果,不断提高档案文件保存质量,从而优化档案管理工作效果。

一、大数据时代对档案管理的影响

大数据时代的到来为档案管理带来了较为明显的影响,一方面,大数据技术和信息技术等的应用,使档案管理的质量得到提升,进一步推动档案管理工作的开展和提升。在网络的影响下,档案数据不断增加,在进行档案管理时,需要对海量数据文件进行分类管理和储存,因此需要档案管理工作者不断对管理技术进行升级,创建高效的档案管理模式,提高档案管理效果。档案管理中文件逐渐向数字化方向发展,人们可以直接利用计算机技术进行档案管理,简化档案管理流程,提高档案管理的便捷性。

另一方面,受到网络信息的影响,同样为档案管理带来一定的挑战。在大数据环境下,需要逐渐从传统档案管理向数字化管理方向发展,但整体数据量较大,为数据的处理和储存均带来了一定的难度[1]。同时,受到网络安全的影响,使用网络进行档案管理时,受到病毒木马等方式的攻击下,可能会发生档案信息泄露或档案被恶意篡改等安全问题,影响档案管理效果。相关档案管理人员应加强对档案管理技术的研究,不断对档案管理技术进行优化处理,进一步提高档案管理质量。

二、分布式档案文件储存技术

(一)技术分析

分布式档案文件储存技术是利用相应的管理系统,将档案文件分散到不同节点上进行储存管理的技术,在运行过程中,节点的故障对整体数据储存质量不产生影响,从而避免出现信息大量丢失的情况,保障数据的安全性。分布式档案文件储存技术在运行过程中,能够根据实际需求进行扩展,实现计算机集群效果,构建较大的计算机网络,实现文件的共享,同时提高档案管理的质量。在分布式档案文件储存管理系统构建的过程中,需要选择相应的主控服务器,在服务器中配置备用设备,避免主控设备故障,影响系统的运行效果。同时应设置多个数据服务器和客户端,在其中构建相应的数据节点,便于进行相应的数据储存管理。分布式储存技术在运行中,主要的方案是将大文件进行分类,划分为小文件后进行分类储存,不同服务器和节点中的总数据量较少,降低服务器的工作量和工作难度,从而提高整体数据服务器的运行效率。大数据背景下,不断提升设备对信息的处理效率。

(二)技术特征

分布式档案文件储存技术在使用过程中具有较为明显的特征,其一,可拓展性。分布式系统是将若干个节点集合构建成为统一的系统,因此在使用时能够根据实际需求进行拓展[2]。在企业档案管理过程中,能够与企业中所有的计算机设备进行连接,并构建相应的数据储存空间,便于将档案文件进行分类储存,提高整体的文件保存效果。想要对储存节点进行扩展时,可以对相关的服务器和电子设备等进行调整,并按照相应方式将新设备与总体网络进行结合,对分布式系统进行拓展,使整体的储存效果效率得到提升。

其二,性能较强。分布式储存技术在系统构建和实际应用过程中,具有非常好的使用效果,其性能较为优越,能够对大量的资源进行快速识别和处理,利用多个层次节点实现与不同结构的结合,便于为用户提供更加简便的接口,使系统集成监控、档案文件储存以及系统运行维护效果得到提升。

其三,成本低廉。在分布式节点中,对于设备和服务器的质量要求不高,常规型号既能够满足功能需求,完成相应的数据储存管理。因此系统的构建成本相对较低,便于进行推广应用。

其四,容错性不足,在使用分布式档案文件储存技术的过程中,不同节点之间进行数据的互联,在进行检测时,能够通过网络进行快速扫描和分析,准确对故障位置进行定位,从而便于上报处理和故障节点数据的迁移,同时不影响其他位置的正常运行。但受到分布式结构的影响,系统故障的概率也相对较大,为降低故障概率,需要提升系统的容错性,使服务器和分布式结构能够保持较高的一致性,进而提高档案的管理效果。

三、档案管理系统分布式文件储存数据库架构

大数据时代下,档案向数字化方向发展的过程中,需要合理构建相应的数据库架构,为数字化档案的管理起到良好的作用。数据库架构的构建过程中,需要按照相应的方式将数据库和数据表以及过滤器等程序进行统一集合。档案管理系统运行过程中,出现故障概率最大的部分为数据库,数据库架构的功能直接影响数据的检索能力和档案的储存管理能力。因此,在进行分布式档案文件储存系统构建的过程中,需要对相应的数据库进行全面管理和控制,从而提高数据档案的安全性和管理效果。

分布式数据库构建过程中,需要使用单独的计算机构建系统,并拷贝相关的资料副本,在副本的基础上构建该节点的数据库,将不同节点中的数据库进行连接,组合成为集成状态下的分布式数据库。在整体结构中,不同计算机数据库的逻辑相同,并根据权限级别构建不同的数据逻辑层次。根据不同层次的功能特点对局部数据库提供相应的数据和工作模式。

想要提升数据库容量,优化分布式数据库储存效果,可利用水平分片的方式将数据库中的节点进行划分,将原本的数据库进行分割,成为若干个物理数据库子集,将相关的档案文件等数据分别记录在不同的子集中,使分片数据库能够按照相应的方式运行。在进行方案文件储存时,不需要关注其储存位置,在使用时直接提取,进一步优化数据库的使用效果,并提高数据的容量。对数据库进行分片处理的过程中,需要根据一定的计算规则对数据阶段进行调整和分片,在进行系统控制的过程中,应保持整体一致性原则,避免出现连接故障,无法实现数据的正常应用。

通过分布式储存结构的设计,能够使档案文件管理的安全性得到提升,由于数据储存在不同的节点上,整体的数据保护效果得到明显提升。在进行分片后,使数据容量得到有效扩展,便于提高整体系统的识别和读取能力,进一步提升文件管理效率。

四、分布式档案管理系统中负载均衡算法分析

负载均衡是增强网络服务器等相关设备对数据吞吐能力和处理能力的方式,通过将数据压力分散到不同处理单元中,同时对数据进行处理和控制,缩短任务完成时间,实现负载均衡。在构建过程中,需要在原有网络基础上进行设置,有效提升负载文件的处理效果。负载均衡分为软件和硬件负载均衡以及本地和局域负载均衡。在软件和硬件负载均衡中,软件负载均衡过程中,与不同服务器进行连接,利用软件实现安装和连接。该方式的操作控制难度较低,并且在不同区域中能够得到更好的使用,但存在数据库管理较为困难的情况。在对硬件进行平衡管理过程中,需要依靠相应的负载均衡设备,提高设备的使用效果。本地和全局负载均衡主要针对地理位置进行控制和调整,需要结合需求选择恰当的服务器,为档案文件管理提供恰当的管理效率。

负载均衡算法运行过程中,将数据处理任务分散到不同的节点中,各个节点在程序控制下按照要求进行任务处理。受到任务分配的影响,可能导致部分节点中任务量较大,无法及时处理,部分阶段中的任务量较小,运行效率较低。为减低影响,可以尝试使用加权轮转调度算法,对负载均衡运行中的节点权重进行调整,按照不同节点的档案文件处理效率进行划分,并设置不同的权重,以便在进行任务分配的过程中,对处理能力强的节点进行优先分配,从而减少负载不均的情况,提高对档案文件的处理效率。

此外,针对负载均衡技术的实际执行情况,在不同算法的基础上总结出具有自适应能力的动态反馈负载均衡算法。使用该算法能够减轻网络节点内存压力,同时提高档案信息的吞吐量,使整体的档案处理效率得到优化。在算法中,针对节点储存能力,设置相应的阈值,并按照节点中信息变化情况对管理系统进行反馈,利用自适应系统进行分析,给出相应的调节方案,从而使节点中负载信息处理效果更加高效。此外,在计算过程中,需要考虑节点中不同动态因素的影响,根据不同网络节点的结构和能力,提高系统自使用效果,从而使整体的节点负载量更加精准。

对自适应动态反馈负载均衡算法的应用情况进行分析,在使用该算法进行档案文件处理时,客户端给出相应的任务信息,在任务信息中包含文件的需求情况和空间占用情况,用F1代表上传文件数量,F2代表储存空间占用量。在调度节点中,由该信息组成组合(F1,F2),并进行任务请求。储存节点识别该信息情况,并将其中的储存空间与自身的空余空间等条件进行对比。使用连接数和可用空间构建元组(Ci,ASi),并利用元组进行评价和反馈,利用元组分析节点对档案文件的分析处理能力以及节点的储存空间大小,以便后续进行反馈调整,给出恰当的工作量,提高储存节点的实际任务效果。

在对该算法中可连接度进行分析时,可以使用公式表示:

其中i为n个节点中随机的一个节点,其左最大值为CMAXi,在计算过程中Ci为可用连续数,通过公式得到相应的阈值,根据阈值情况对可连接性进行分析,不同阈值下储存节点的实际工作质量不同,因此通过阈值来对节点的性能进行分析调整,进而保障整体的分析效果。

五、大数据影响下档案分布式文件储存管理系统分析

(一)对系统功能的需求

大数据影响下,为提高档案储存管理质量,使系统能够更好地处理大量数据,提高功能实施效果,应结合实际的档案储存情况,对需求情况进行分析。在网络化的影响下,档案数据向小文件形式发展,在储存过程中,应制定恰当的储存方式,减少文件对空间的占用,降低节点的储存压力。在对系统功能进行分析时,用户对档案文件上传功能较为重视,文件上传直接影响整体结构的任务情况,因此应提高上传的准确性和高效性。为使文件上传后的标志更加明显,应对功能进行设置,构建过滤结构,对文件的属性和重点内容进行标记,并结合文件实际情况制定相应的属性和检索关键字,便于后续进行提取和检索,如图1所示。在文件上传的过程中,用户创建上传请求文件,并将其作为待办事项,进行管理,结合文件的信息情况,设置相应的算法,对文件进行识别和属性提取,对文件的类型进行判断,并设置相应的检索标志,最后完成索引设置,确保后续能够进行搜索应用。在完成设置后进行数据文件储存。

图1 文件上传结构设置

在档案数据储存过程中,为提高对空间的利用效率,针对文件的储存功能,对分布式结构进行调整,设置针对小文件的储存节点。档案文件储存过程中,设置小文件的储存方式,降低数据量小的档案文件的空间占用。使用FastDFS对储存模块进行调整,提高对小数据的储存效果,并对相关节点进行扩容,提高小文件数据的储存效果。

在对文件检索功能进行设计的过程中,应提高检索的质量和效率,同时简化搜索流程,实现快速的文件搜索。在系统节点中储存了较多的文件,通过属性的识别,将不同类型文件进行区分,再按照文件的关键字进行检索,或将目标文件中的关键字作为检索信息,使用户在进行信息查询的过程中,能够在最快的情况下准确得到目标文件,如图2。

图2 文件属性设置

文件检索后,需要对档案文件进行下载使用,在下载过程中,为保障档案文件的安全性,应对下载功能进行优化。一方面,应提高下载过程的安全性,另一方面需要强化下载的效率,使档案文件的使用效率得到提升。

在大数据时代影响下,用户使用分布式档案文件管理系统的过程中,需要保障系统具有较高的响应速度,有效缩短系统的识别和处理时间,同时提高文件处理的精准度,从而进一步满足用户需求。同时由于档案文件对于用户具有重要作用,在使用管理系统时,应确保系统具有较强的可靠性,从而提升系统的服务效果。

(二)系统的结构设计

在构建档案管理的分布式文件储存系统时,应结合用户对系统功能的需求进行设计,满足用户的相关需求。在进行结构设计的过程中,整体系统中主要包括文件储存、文件属性设置、文件检索以及文件管理模块,结合该系统需求情况,对系统结构进行合理设计,构建效果良好的文件储存系统。

在对储存结构进行设计时,由于储存结构是系统的中心模块,对系统的功能产生决定性影响,应结合储存模块的特点,实施负载均衡措施,对任务进行调低,从而保障储存模块保持正常的使用性能。此外,结构中的节点数量较多,为保障储存的可靠性,应对不同节点之间的关系进行调整,保持节点之间的对等且独立的关系,避免在某一节点故障后,对其他节点产生影响,提高节点数据储存的质量和安全性。

在储存图片或文字等不同属性档案文件时,应在文件管理过程中,对文件的内容和属性进行识别,并按照文件基本信息和重点信息设置相应的检索关键字,在设置完文件属性后,可以对文件进行储存,以提高文件的识别效果,便于后期进行检索提取。在设置文件储存属性时,可以引入智能识别技术,对文件内容进行识别,并智能推荐相应的检索关键字,人工对其进行判断后完成文件的处理和储存。

(三)档案监管功能设计

档案文件的储存管理过程中,需要确保整体储存质量和安全性,管理人员应构建相应监控模块,对系统储存管理过程进行监控,并对档案文件的实际管理和储存情况进行信息整理并上传,提高管理人员对档案信息的掌握效果。在对系统进行监控管理时,主要对不同节点的文件处理状态、文件上传和下载速度以及节点储存等情况进行监控,通过对系统运行情况的监控管理,识别系统状态和运行情况,便于进行优化和管理。在监控系统中设置子模块,分别对不同的节点进行监管,对监管信息进行实时回传,由监控管理系统进行识别和整理,用户在前端请求时提供监控数据。对于整理后的监管信息,上传到数据库中,等待提取和使用。通过对监控信息的调整,使监控数据的使用效率更高。

六、结论

综上所述,在大数据背景下,为提升档案管理储存质量,应加速档案管理的数字化发展。通过构建分布式文件储存系统,利用不同节点对用户的大量数据进行分类储存,使档案数据的储存效率更高,进一步提高档案管理工作的实际效果。

猜你喜欢
档案文件储存分布式
基于RTDS的分布式光伏并网建模研究
档案文件的数字化管理在企业中的相对重要性
冬季养羊这样储存草料
探析档案文件资料收集工作面临的问题及对策
档案信息化建设在医院档案文件管理中的积极影响
危险物品储存和运输安全
基于预处理MUSIC算法的分布式阵列DOA估计
松鼠怎样储存食物
基于DDS的分布式三维协同仿真研究
家庭分布式储能的发展前景