张咏梅 解素芳
(济宁技师学院 济宁 272000 济宁医学院 济宁 272067)
基于P2P技术的数字档案馆共享联盟研究
张咏梅 解素芳
(济宁技师学院 济宁 272000 济宁医学院 济宁 272067)
通过对C/S、云技术和P2P三种架构的比较,P2P技术更适合构建数字档案共享联盟。文章搭建了一个基于P2P技术的数字档案共享联盟模型,探讨了基于兴趣的数字档案搜索机制,缩小了搜索范围,提高了搜索效率。
P2P技术 客户机/服务器 云技术 档案共享联盟
G270.7
A
2017-10-19
实现档案资源共享是档案开发利用过程中的必然要求,也是档案事业发展的必然趋势。2014年,中共中央办公厅、国务院办公厅联合印发《关于加强和改进新形势下档案工作的意见》,明确指出大力“促进资源共享”,要求“搭建全国开放档案平台,真正建立起方便人民群众的档案利用体系,使档案公共服务惠及广大人民群众”。《全国档案事业发展“十三五”规划纲要》中也明确提出“加快档案信息资源共享服务平台建设”,“建立开放档案信息资源社会化共享服务平台”。
目前,数字档案共享范围往往局限于档案管理部门内部,还没有形成一个全国性的数字档案共享平台。构建数字档案共享系统平台需要信息技术的大力支持。在当今数字档案共享体系中,客户机/服务器(C/S)仍是主流应用模式,因其成本高、单点失效等问题,即将退出应用范围,分布式技术成为构建数字档案共享平台的研究热点。何正军等指出云技术可以应用于数字档案馆的建设[1];程结晶利用云技术构建了数字档案馆的共享及管理体系[2];程妍妍讨论了国际上云技术应用于数字档案馆的案例[3]。但必须指出的是,因其昂贵的基础设施及运营成本,云技术只适合构建单一的或局部范围内的数字档案馆。我国数字档案馆数量众多,数字档案资源规模非常庞大,想要将这些数字档案资源全部搬到云端并不可行,而P2P技术为构建全国性的档案共享平台提出了新思路。黄猛指出P2P在数字档案馆建设中有很好的应用前景[4];《档案信息网络传播中P2P技术应用探讨》一文探讨了P2P技术应用于数字档案共享平台中的主要困难及其解决方案[5];王亚敏设计了一个基于多层P2P技术的高校档案管理系统[6]。文章在前人研究的基础上,尝试利用P2P技术构建数字档案共享平台,旨在促进数字档案的共享流通,从而使档案服务惠及广大人民群众。
P2P即对等网络,与传统客户机/服务器模式相比,P2P网络中不依赖中心服务器,每个节点的地位和功能都是对等的,既可充当服务器,也可充当客户机。
P2P网络有四种典型拓扑结构:中心化拓扑、全分布式非结构化拓扑、全分布式结构化拓扑和半分布式拓扑。半分布式拓扑综合了中心化拓扑和全分布式非结构化拓扑的优势,根据节点能力的不同,网络中存在两种节点:超级节点和普通节点。超级节点通常是计算能力、存储能力、带宽、在线时间等综合性能较好的节点,每个超级节点都存储其所负责普通节点的信息,查询消息只在超级节点之间转发,形成一种消息高速转发层。与其他三种拓扑相比,半分布式拓扑具有更好的搜索性能和可扩展性。
1.P2P与C/S的比较。拓扑结构不同是P2P与C/S两种模式最根本的区别,P2P技术是分布式拓扑结构,C/S模式是集中式拓扑结构,两种拓扑结构直接决定了其性能优劣,与C/S模式相比,P2P技术具有以下优势。
(1)资源利用率高,成本低。C/S模式中,所有的数据都存储在服务器中,只有服务器具有控制功能,服务器的存储能力、处理能力和带宽直接决定了网络系统的性能;与之相反,P2P技术中没有中央服务器,P2P技术的出现使网络存储模式由“内容位于中心”转变为“内容位于边缘”,所有的数据都存储在对等节点中,对等节点的信息资源、存储空间、CPU周期等资源都可以共享,形成一个巨大的虚拟资源池,供其他节点使用,使系统中的各种资源得到充分利用,降低使用成本。
(2)良好的可扩展性。C/S模式中,服务器是网络中最重要的一环,其存储能力、处理能力以及网络带宽不能无限增大,受服务器综合能力的限制,共享的数据容量以及客户端的数量必须控制在一定的范围内。随着客户端数量的不断增多,当接近服务器的最大并发数时,整个网络的性能急剧下降,服务器一旦崩溃将导致整个网络系统瘫痪,可扩展性差;与C/S模式不同,P2P网络中存储、CPU等资源分布在对等点中,每个对等点都向系统提供共享资源,对等点越多,资源冗余度越高,系统运行越稳定。P2P系统中各种资源都分散在网络中,经过合理调配而达到一种均衡状态,整个网络系统具有良好的可扩展性。
(3)较强的搜索能力。Web搜索过程中,首先利用爬虫系统来获取网络上的信息资源,然后把这些信息资源索引按照相应的算法排序存入备查数据库中,当用户发起查询请求时,搜索引擎在数据库中检索并返回结果。整个搜索过程无法控制搜索广度和深度,备查数据库中的数据信息不完备、更新不及时,则搜索到的结果不齐全、准确度不高、实时性及有效性不强。P2P网络中,信息资源是索引的,索引信息时刻与节点当前状态保持同步,搜索到的信息具有较强的实时性和有效性。P2P技术搜索引擎可以将搜索消息同时向多个节点发送,这些节点继续向多个邻居节点传递,搜索消息瞬间可以扩散到数量众多的节点,P2P搜索引擎能够保持较好的搜索深度和广度,得到较高的查全率与查准率。
2.P2P技术与云技术的比较。云计算以其虚拟化、可扩展性好、按需服务等特点成为信息技术领域的研究热点,被视为科技界的下一次革命。因高昂的基础设施建设费用和运营成本,云计算被极少数的大公司所掌控。云计算要求所有信息资源存储在云端,其物理位置不易控制,数据安全及隐私存在较大隐患:因硬件故障等原因造成数据丢失,服务商无法恢复数据;或机密性较强的信息被泄露。云计算不适合应用于数字档案馆等机密性较强的共享领域。
云计算核心理念在于利用虚拟化技术充分发挥服务器集群的效能,为用户提供高质量的服务。P2P技术核心理念在于将分散的资源聚集在一起,形成一定规模,向用户共享资源。P2P技术不需要组建服务器集群,凭借特有的分散性特点,依据现有的网络、PC、服务器等基础设施,在少投入甚至零投入的前提下,就可以组建成共享网络,为每一位用户共享资源。与云计算相比,P2P技术更适合应用于数字档案共享系统。
如今,各级档案机构各自为政,彼此之间的共享与交流甚少,从而形成了一个个“信息孤岛”的局面。为了解决这个问题,文章尝试构建一个全国性的数字档案共享联盟。全国各类数字档案馆聚集在一起,形成一个自治的、松散的数字档案共享平台。
1.数字档案共享联盟系统架构。为了提高搜索效率,文章引入社区的概念,将每个数字档案馆共享的档案内容抽象为兴趣,并将兴趣进行量化[7],按照行政区域的划分,每个省内具有相同或相似兴趣的档案馆聚集在一起形成一个兴趣簇,比如共享内容为海洋档案信息的山东省数字档案馆聚集在一起形成一个山东省海洋档案兴趣簇。兴趣簇的结构如图1所示。
系统中存在三类节点:普通节点(Common Node,CN)、省级超级节点(Provincial Super Node,PSN)和国家级超级节点(National Super Node,NSN)。
普通节点:系统对普通节点没有要求,普通节点是一般的数字档案馆,普通节点依据其兴趣加入一个或多个省级兴趣簇。
省级超级节点:系统对省级超级节点要求较高,省级超级节点一般由在线时间长、存储容量大、处理速度快、网络带宽大的节点担任,一般是各省相关兴趣簇内综合实力最强的数字档案馆,比如山东省兴趣为海洋类的省级超级节点由中国海洋大学档案馆担任。省级超级节点存储该簇内所有普通节点的信息以及共享资源索引。
国家级超级节点:国家级超级节点一般由全国相关兴趣簇内综合实力最强的数字档案馆担任,比如兴趣为海洋类的国家级超级节点由中国海洋数字档案馆担任。国家级数字档案馆存储该兴趣簇内各省级超级节点的信息以及其他兴趣相近的国家级超级节点信息。
省级和国家级超级节点不同于C/S模式中的中央服务器,它们只存储兴趣簇内节点的信息以及共享资源索引,并不存储共享资源本身,共享资源存储在各对等点,下载时直接从对等点下载。为了防止省级和国家级超级节点退出系统,每个省级和国家级超级节点都有多个备用节点,一旦一个超级节点退出系统,备用超级节点立即被激活,不存在单点失效的问题。
2.数字档案共享平台搜索机制。数字档案共享平台搜索过程分为两步:簇内搜索和簇外搜索。(1)簇内搜索。簇内搜索又分为一级簇内搜索和二级簇内搜索。当一个普通节点发出查询请求时,首先启动一级簇内搜索。查询消息首先发送到兴趣簇内省级超级节点,省级超级节点根据查询消息搜索其簇内资源索引,如果找到则将相应节点信息发送给请求者,搜索结束。否则,启动二级簇内搜索,省级超级节点将查询消息转发到簇内国家级超级节点,国家级超级节点将收到的查询消息转发给簇内其他省级超级节点,如果找到相关资源则将相应节点信息发送给请求者,搜索结束。否则,启动簇外搜索。(2)簇外搜索。当簇内搜索没有找到相关资源时,国家级超级节点将查询消息转发到其他相近兴趣簇的国家级超级节点,这些兴趣簇启动二级簇内搜索,如果找到相关资源则返回相应节点的信息,搜索结束,否则搜索失败。搜索流程如图2所示。根据地域和兴趣的划分,大部分搜索在本省兴趣簇内可以找到所需档案资源,大大缩小了搜索范围,提高了搜索效率。
图1 兴趣簇结构图
图2 搜索流程图
随着共享理念的不断深入人心,档案共享的需求日益增强,构建全国性的数字档案共享联盟成为亟待解决的问题。P2P技术以其分布式、自组织、高可扩展性等特点广泛应用于文件共享领域,P2P技术为构建数字档案共享联盟提供了新思路,可以为数字档案共享平台提供技术支撑。
[1]何正军,金波.云计算与数字档案馆建设新机遇[J].档案与建设,2015(12):4-8.
[2]程结晶.云技术中数字档案资源共享与管理体系的构建[J].中国档案,2013(1):38-41.
[3]程妍妍.国际档案馆应用云计算的平台和模式研究[J].档案管理,2016(1):38-40.
[4]黄猛.浅议P2P计算技术及其在数字档案馆中的应用[J].兰台世界月刊,2011(2):26-21.
[5]谢海洋,王珊.档案信息网络传播中P2P技术应用探讨[J].档案学通讯,2010(4):63-66.
[6]王亚敏.基于多层P2P技术的高校档案信息管理系统[J].浙江档案,2009(3):41-43.
[7]赵捧未,马琳,秦春秀.P2P用户兴趣社区形成研究[J].现代图书情报技术,2013,29(10):53-58.
Research on Digital Archives Sharing Alliance Based on P2P Technology
Zhang Yongmei,Xie Sufang
(Jining Technician College,Jining 272000,China;Jining Medical College,Jining 272067,China)
By comparing the three frameworks of C/S,cloud technology and P2P,P2P technology is found to be more suitable for building digital archives sharing alliance.In this paper,a digital archives sharing alliance model based on P2P technology is constructed,and the searching mechanism for digital archives based on interest is discussed,thus the searching range is reduced and searching efficiency is improved.
P2P technology;C/S;cloud technology;archives sharing alliance
山东省档案局科技项目“基于P2P网络技术的档案共享平台模型研究”。
★第一作者简介:张咏梅,济宁技师学院副研究馆员,研究方向为档案管理。