黄荣梅 唐权
摘要:为解决常规数字化档案系统调取识别性较低的不足,提出了实物大数据手段在数字化档案系统中的应用。基于实物大数据与数字化档案系统的连接,以及数字化档案的识别,完成实物大数据搜索单元的引入;依托搜索关键字的载入,数字化信息的甄别与显示,实现了实物大数据手段在数字化档案系统中的应用。实验数据表明,提出的实物大数据手段在数字化档案系统中的应用,较常规数字化档案系统,调取识别性提高75.35%。能够实现数字化文档系统文件的快速调取。
关键词:实物大数据;数字化档案;档案系统;数据调取
中图分类号:TM72 文献标识码:A
文章编号:1009-3044(2019)09-0005-02
常规数字化档案系统采用关键字检索的方式,能够实现数字化档案系统的调取,但仅限于关键字录入部分,例如对数字化档案标题进行关键字录入,搜索关键字则可以找到该数字化档案,但搜索该数字化档案的内容将无法查询到该档案,存在调取识别性较低的不足[1],为此提出实物大数据手段在数字化档案系统中的应用。基于TCP/IP通信协议,实现实物大数据与数字化档案系统的连接,利用大数据识别机制,实现数字化档案的识别,完成实物大数据搜索单元的引入。依托搜索关键字的载入,数字化信息的甄别与显示,实现了实物大数据手段在数字化档案系统中的应用。为了保证提出的数字化档案系统中应用有效性,进行试验验证,试验结果表明,提出的实物大数据手段在数字化档案系统中的应用,较常规数字化档案系统,具有更高的调取识别性。
1引入实物大数据搜索单元
1.1实物大数据与数字化档案系统的连接
实物大数据与数字化档案系统的连接是采用常规TCP/IP通信协议进行通信的,TCP/IP通信协议具有可扩展性,溯源性良好,能够保证实用大数据技术的可靠运行[2]。
TCP/IP通信协议是连接大数据服务端与数字化档案系统的通信桥梁,采用环形拓扑架构的方式进行连接,通信连接测试数据量不得小于45Mbyet/s[3]。以保证数据传输的稳定性。其设计的TCP/IP通信协议共有四个层次结构,分别是网络接口层、网络层、传输层和应用层,网络接口层是连接网络的层级结构,使网络有效连接,进行有效通信。而网络层就是为通信提供网络支撑的层级,传输层是使大数据传输的介质层级。在应用层进行整合,实现实物大数据与数字化档案系统的连接。
1.2数字化档案的识别
大数据识别机制与常规检索机制不同,数字化档案的识别是采用大数据识别机制进行识别的。大数据识别机制是利用模糊集计算方式进行统计,根据嵌入方式进行自定义子集,采用子集与统计集合对比的方式进行数字化档案检索。其模糊集识别数字化档案计算过程如下:
首先,利用实物大数据的优势,将数字化档案管理系统,构建成不同分类的模糊集合。其中一个文档可属几个大类模糊集合,也可单属于一类的模糊集合当中。
然后,根据载入的关键字信息,进行模糊化处理,确定模糊化子集,根据模糊化子集对应数字化档案系统中的模糊集合。
最后,子集在模糊集合内,进行对比,实现检索内容的显示,优化传统检索方法,将输入信息与整个档案系统数据库进行逐一对比,提高检索能力,缩短检索时间,降低对数据库资源的耗损。
2实现数字化档案系统快速调取
2.1搜索关键字的载入
搜索关键字的载入,是基于用户在输入端输入的关键字信息,数字化档案管理系统识别关键字信息,载入其关键字信息,完成关键字的载入。关键字的范围为用户输入范围,包含数字化档案的标题内容、作者、发表日期、类型等关键信息等。
载入过程中应保证数据传输的一致性和准确性,若载入数据传输有误,则会造成显示不准确,将会给后续的数字化信息甄别带来一定的影响。同时为解决因输入有误而造成的查询调取不准确,采用模糊集计算方式进行运算。
2.2数字化信息的甄别与显示
数字化信息的甄别,是在显示给用户前进行系统自我内部的甄别,甄别过程为对预提供给用户的数字化信息进行精算,确定提供的数字化信息为用户所检索的数字化信息[4]。精确计算与模糊集计算不同,精确计算为单字符对于单字符的对比计算,根据用户输入的信息进行判断,若与用户输入的信息,相同则给予显示,若与用户输入的信息不同则不予显示,再进行重复计算,若重复计算未发现用户输入的信息,这显示与搜索相近的数字化档案信息。
数字化信息的显示为物理显示,即依托输入端的外部设备(计算机显示器)进行显示[5],依托实物大数据与数字化档案系统的连接,引入大数据识别机制,通过对关键字的载入,基于设计的数字化档案调取过程,与数字化信息的甄别,完成显示,实现提出的实物大数据手段在数字化档案系统中的应用。
3实例分析
为保证提出的实物大数据手段在数字化档案系统中应用有效性,现采用两种数字化档案系统,进行对比实验,分析两种数字化档案系统的调取识别性情况。采用对比调查的方式进行实验。
3.1实验准备与实验过程
实验地点为某省图书馆,实验过程征求图书馆管理员意见,采用两种数字化档案系统进行服务,征求图书馆阅读人员作为志愿者,对两种数字化档案系统进行有针对性的调取实验,分析两种数字化档案系统的调取识别情况。其中两种数字化档案系统为采用关键字检索的常规数字化档案系统、本文提出的应用于实物大数据的数字化档案系统。
为了准确验证应用不同方法的数字化档案系统的调取识别情况,在实验过程中,应保证两种数字化档案系统内的数字化档案完全一致,且占用储存空间大小相等,储存排列方式应完全相同。仅分析应用不同手段的数字化档案系统的调取识别情况。本次实验,两种数字化档案系统储存内容如表1所是:
实验过程中,采用数字化档案系统储存大小作为自变量,调取反应时间作为因变量,利用调取反应时间衡量调取识别情况。记录不同数据量调取所需时间形成图表。
3.2试验数据分析
根据实验过程,记录存储文件由0~20GB,应用不同手段的数字化档案系统,所调取文件所需要的时间。如图1所示:
上图中,图(a)代表提出的数字化档案系统应用调取反应时间,图(b)代表常规的数字化档案系统应用调取反应时间。根据图1显示,计算提出的数字化档案系统应用调取平均反应时间为0.35s,常规的数字化档案系统应用调取平均反应时间为1.42s。得出提出的实物大数据手段在数字化档案系统中的应用,较常规数字化档案系统,调取识别性提高75.35%。能够实现数字化文档系统文件的快速调取。
4总结
本文提出了实物大数据手段在数字化档案系统中的应用,基于实物大数据搜索单元引入,依托搜索关键字的载入,数字化信息的甄别与显示,实现本文的研究。试验数据表明,本文设计的数字化档案系统具备较高的有效性。希望本文的研究能够为数字化档案系统提供理论依据。
参考文献:
[1] 米永宁, 耿志杰. 应用大数据技术开发数字档案信息资源的现实困境与策略研究[J].北京档案, 2016(11):16-19.
[2] 李俊豪. 2017(贵阳)档案大数据应用与安全高端论坛暨第五届档案信息化建设峰会召开[J].中国档案, 2017(9):17-17.
[3] 张志忠, 朱水琴, 沈伟民. 大数据时代地税数字档案室建设的建议[J].档案与建设, 2016(11):69-73.
[4] 陈小莉. 基于大数据的计算机数据挖掘技术在档案管理系统中的研究应用[J].激光杂志, 2017(2):146-149.
[5] 李鹏. 大数据时代下的服务导向型图书馆用户档案管理[J].山西檔案, 2018,242(6):31-33.
【通联编辑:光文玲】