数字档案利用平台中的NoSQL应用探析

2016-06-16 00:56沈红雨
关键词:数字档案大数据利用

沈红雨

(绍兴文理学院 档案馆,浙江 绍兴312000)



数字档案利用平台中的NoSQL应用探析

沈红雨

(绍兴文理学院档案馆,浙江绍兴312000)

摘要:NoSQL是为弥补关系数据库处理大数据时的不足应运而生的新型数据库,根据大数据档案的建设需要,阐述数字档案利用平台在用户查档请求或会话服务、档案数据存储服务、档案特征服务、档案信息推送服务几个方面的需求,通过分析几种NoSQL数据库的工作原理和特性,阐明其应用于数字档案利用平台的合理性,并提出了相对应的实现方案.

关键词:NoSQL;数字档案;大数据;利用

随着人们网络社会活动的日益加强,各种信息手段的快速发展,档案数据在发生着爆炸式的增长,数据类型也日益繁多,如何处理这些饱含历史意义的大数据,传统的关系数据库已难独挡一面.NoSQL(泛指非关系型数据库)即是为处理大数据,针对关系数据库的不足应运而生的一种新型数据库.此类数据库对集群有良好的支持性,使得大量数据的高读写并发十分高效.[1]更重要的是NoSQL不必事先定义表结构, 可以灵活地存储各种长度的数据,这一特性使得其可以聚合各种类型的档案数据,是构建数字档案利用平台的良好工具.

NoSQL数据库分为很多种类,不同种类的数据库都有其适合操作的数据结构及数据量,用来解决不同的问题.在数据档案管理系统中的“查档请求或会话服务”、“档案数据存储服务”、“档案特征服务”、“档案信息推送服务”这四者是各不相同的问题,需要采用不同的数据库来完成任务.

1查档请求或会话中的键值数据库应用

通常来说,用户的每一次查档请求或者浏览档案信息时产生的web会话内容都是唯一的,可以把查档请求或会话数据中所有内容放在一个对象中.尚未正式提交的查档请求和会话数据通常是一些“瞬态数据”,没有必要长久保存到硬盘里.而且通常用户用ID查询请求,一旦用户确认提交,就可以将之保存到关系数据库或图数据库.此处键值数据库适用.键值数据库可把它想象成传统的“关系型数据库管理系统”,它有两列,一列存ID,一列存放值,即把一个用户ID产生的全部数据内容都存放在一个存储区(值)里,数据整块存取.客户端只能根据主键查询数据,或从数据库里删除键.“值”只是数据库存储的一块数据而已,数据库并不关心也无需知道其中的内容;应用程序负责理解所存数据的含义.其二、键值数据库通常把数据保存在内存中.这两个特点使得键值数据库处理数据的速度非常快.尚未提交的查档请求及会话数据一般不涉及具体内容的查询,响应迅速、准确是该功能的首要需求,符合键值数据库的特性.[2]

2档案数据存储中的文档数据库应用

对于结构化档案数据因其可以用二维逻辑表来表达,可以用传统的关系数据库存储,对于非结构化档案数据,其数据大小不一致、字段结构不一致,用表结构固定、字段长度事先固定的关系型数据库存储显然会造成大量空间的浪费.NoSQL的文档数据库可以直接处理文本、图片、视频等半结构化、非结构化数据的存储与管理.而且NoSQL无需事先定义库结构,可自由添加字段的特性也非常适合表达字段个数和长度不一的档案著录模版.NoSQL家族中的MongoDB可以支持任意格式和任意大小的文件,数据被存储在MongDB中会被自动分割成许多块,每个块包括本块的元数据和具体数据两部分,块元数据包括本块的具体位置、上一块和下一块的位置、本块第一条和最后一条的记录的位置指针.分块后的数据由Mongos路由服务器根据负载状况分配存储到某一特点的shard上.此一特征尤其适合存储数据大小不一样的非结构化数据.

图1 非结构化档案数据MongoDB、关系数据库管理过程

当然MongDB只能作单表数据查询,与所有的NoSQL一样不能执行多表间的关联复杂查询,这不利于深度挖掘档案数据间的关联性,且不具备事务处理能力,当多用户对同一个数据进行读写并发操作时,可能会出现数据不一致的情况.而执行多表间的关联查询、保持数据的一致性,良好的事务处理能力正是关系数据库的突出优势.因此,关系数据库与NoSQL是互补的,NoSQL长于存储和检索,对于占用空间比较大的档案数据及其元数据可存于NoSQL,其占用空间不大的元数据信息复制导入关系数据库中进行管理,从而保证非结构化档案数据对存储空间高要求的同时,确保数据之间确实存在关系.以MongoDB为例做示意图1.3档案特征服务中图数据库的应用关系数据库一是善于通过布尔逻辑关联规则来挖掘数据间的规律:如<年龄:33~38> AND <学历:硕士研究生>-><职称:副高级>[C=80%],表示对某人事档案数据库进行挖掘后得出了:如果某人年龄在33~38岁而且是硕士研究生学历,那么有80%的可能他具有副高级职称.或者是善于揭示数据集中不同属性取值间的关系,如<年龄:33~38> AND <学历:硕士研究生>AND<职称:副高级>AND<学科方向:诉讼法>的教师有:<姓名:×××>AND<课题列表:国家自然科学基金项目《…》;浙江省教育科学规划项目《…》>,<姓名:×××>AND<课题列表:国家社会科学基金项目《…》;浙江省教育厅科研项目《…》>.总之关系数据库是以数据集合的方式来表达数据之间的关联性.而同样是用来揭示“关系”的图数据库将数据实体视为“节点”,数据与数据之间的关系视为“边”,用图将节点与边组织起来,如图2.

图2 图数据库表达档案数据间的关联性

图数据库产生的图谱就是把所有不同种类的数据连接在一起而得到的一个关系网络,提供了从“关联”的角度去分析问题的能力.对数字档案资源进行这样的“关联”组织可以有效地进行资源整合,开发档案资源,挖掘出最有价值的实践经验和知识.图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量.它的存储方式主要有两种形式:RDF存储格式和图数据库.[3]将关系数据库数据可以转换为RDF呈现数据关联图谱,但是如果向已有数据增加另一条关系,一般要修改许多模式,编辑的效率较低,而图数据库无需改变点或边,即可应对新的遍历需求.其二,图数据库遍历“连接”及“关系”非常快,尤其是关系深度大于1时,图数据库尤为有用.此外,图数据库支持集群的特性,为实现数字档案“云”搜索提供了技术基础.

总之,关系数据库和图数据库存储形式各异,搜索原理各异,适用场合各异.关系数据库长于以字段为搜索路径,适合内容检索.图数据库以数据之间的“关系”,即“边”为搜索路径,“关系”遍历效率比关系数据库高,适合做数据“关系”挖掘机,尤其是从不同表中搜索出属于同一对象的数据,关系数据库显得比较困难;关系数据库适合作布尔逻辑运算,有利于数据间的统计推导运算,而图数据库强劲的“关系”拓展性,可以有效地连接各自独立的数据群,促进档案资源与其他领域信息资源的融合,发挥档案的生产力.关系数据库因其良好的稳定性可以将其作为档案信息存储库使用,确保档案数据之间确实存在关系,图数据库作为一种新生代数据库产品,稳定性和安全性还有待完善,但其有良好的灵活性和扩展性,当档案数据变化复杂且查询数据量大时,适合采用图数据库表现.

关系数据库与图数据库可以通过RDF文件共享各类数字档案的描述信息.首先需要对数字档案资源所承载的内容进行统一描述和规范,存储到关系数据库.然后对数据著录信息进行提炼,如档案分类号、主题词、关键词、来源,内容涉及对象等,作为数字档案资源语义关联的核心.标准化的描述信息在档案领域本体的作用下进行细化,信息细化有助于提升档案资源语义组织和检索的灵活性,再将其转换成RDF文件,形成计算机可以理解的元数据集,将此RDF元数据集导入图数据库,实现描述信息共享.数据关联发布技术利用RDF链接机制,实现资源的语义关联,形成数字档案检索平台.[4]如图3所示.

4档案信息推送服务中图数据库的应用

由于数字档案数量以及利用人次数快速增长,数字档案管理系统必须提升信息查阅智能化程度,以解决日益突出的查阅需求不 断增 长和 档案 服务工作应接不暇的矛盾.档案部门从20世纪80年代开始利用计算机进行自动化管理,目前已形成和保留着较完备的档案信息著录数据体系、大量用户数据和其他档案利用数据.这些数据大量的记录了档案系统的用户行为轨迹,带着一定目的性,蕴含着一些普遍规律.这些规律包括:(1)用户在利用某一类(或几类)档案信息的同时,还可能需求哪一类(或哪几类)的档案信息;(2)某类档案信息在被一类(或几类)用户群利用的同时,还可能被哪类(或哪些类)用户群利用,从而挖掘出潜在的用户信息;(3)用户利用档案信息过程中,首先要输入检索词.因此,可以考虑利用用户输入的一个(或多个)检索词挖掘分析出相近、相关的检索词,主动提供给用户.[5]

图3 图数据库与关系数据库语义关联实现过程

图数据库可以在节点和边上存储各种属性,方便cypher、gremlin这样的查询语言在图中基于某种模式挖掘关联规则,将关联规则归入图数据库统一管理,通过增加、评估、删除等功能,对关联规则库不断维护.在用户检索信息时,根据其输入的检索信息和其自身信息(如IP地址来源、访问时间、用户性别、工作职务等)与库存关联规则进行匹配,凭着图数据库高效遍历数据的性能快速推送出针对性的档案信息,依据实践反馈对比、人工分析等方法及时对库内关联规则进行更新.图数据库只需通过改变节点及其关系来编辑数据这一特性使得此类更新操作占据的系统资源并不多.

5结语

在信息时代,数字档案作为一种原始的高质量的信息资源正在对社会的方方面面产生着越来越深刻而持久的影响,然而在这个信息爆炸的时代里,数字档案同样也具有了一些大数据的特征,并且这些档案大数据正在越来越深入地走向民间,数字档案管理系统应适当借鉴与普通百姓最贴近的购物、娱乐、金融网站的开发模式来处理用户递交查档的请求,在皓如烟海的档案信息里贴切地搜寻目标信息的需求、信息聚合的需求以及海量数据的存储等需求.NoSQL作为被大数据时代催生出来的新技术,正在被越来越多的互联网企业采用,它是面向云存储的一种数据库管理技术,可以被视为将数字档案建设成“智慧档案”,融入“智慧城市”的一种技术手段.但是NoSQL投入市场时间尚短,如何遵循档案管理及电子文件管理等方面的标准与规范,将其贴切地应用于数字档案领域里,还需要档案同行和数据库管理专家合力探索和实践.

参考文献:

[1]NoSQL数据库的基础知识, http://blog.csdn.net/xyz_lmn/article/details/8052348.

[2] Pramod J.Sadalage Martin Fowler 爱飞翔. NoSQL精粹[M].北京:机械工业出版社.2013:84-86.

[3]知识图谱的应用. http://www.tuicool.com/articles/JZzyyy.

[4]吕元智.数字档案资源跨媒体语义关联聚合实现策略研究[J].档案学研究,2015(5):62-63.

[5]马静.基于关联规则的档案推送服务的研究[C].档案事业科学发展:新环境新理念新技术—2008年档案工作者年会论文集(上册),2008:183-190.

(责任编辑鲁越青)

Application of NoSQL in Digital Archive Utilizing Platform

Shen Hongyu

(Archives, Shaoxing University, Shaoxing, Zhejiang 312000)

Abstract:NoSQL is a new database to compensate for the deficiency of rational database on processing big data. Due to the demand of big data archival construction, this paper elaborates on several demands of digital archive utilizing platform, such as user consulting or session service, archive data storage service, archive features display service, and archive information pushing service. By analyzing the working principles and features of some of NoSQL databases, this paper continues to discuss the ability of its application in the digital archive utilizing platform and put forward the relevant solutions.

Key words:NoSQL; digital archive; big data; utilization

收稿日期:2016-01-30

作者简介:沈红雨(1980-),女,浙江绍兴人,讲师,研究方向:档案管理学、数字档案馆建设.

doi:10.16169/j.issn.1008-293x.k.2016.07.14

中图分类号:G271

文献标志码:A

文章编号:1008-293X(2016)07-0069-04

猜你喜欢
数字档案大数据利用
利用min{a,b}的积分表示解决一类绝对值不等式
利用一半进行移多补少
利用数的分解来思考
Roommate is necessary when far away from home
数字档案生态链信息流转效率提升策略研究
研究数字档案信息安全保障体系
基于大数据背景下的智慧城市建设研究