文/林川
随着云计算技术的快速发展,大数据的应用也更为广泛。 大数据的数据量非常大,而且数据产生和传输频率都非常快,且数据形式多样化。在这种情况下,企业需要处理的用户数据量将非常大。传统的数据库是关系型的,这种数据库在海量存储方面明显能力不足,非常容易出现因负载过高而宕机,而且数据也容易丢失。另一方面,这种系统也缺乏扩展,维护起来工作量大、成本较高。所以,在云环境下,需要不断改进和开发图数据库的建模技术,从而更好的服务于大数据时代的企业和用户。
图数据库是采用有向图进行建模的一种通用数据结构,用于数据存储。图数据库模型的关系及节点分别对应普通图的边与节点。通过关系将节点组织起来,再将节点与关系按照一定的方向进行图模型组合,其中的关系和节点属性有多个,每种类型都使用标签进行区别,每个图数据库都可以储存多个图模型。图数据库模型的节点一般用于实体表示,其链值对属性也有多个。图数据库模型在节点关系描述方面具有灵活性,对关系描述具有多样性,可以单向或者双向,也可以进行动态扩展。
在云环境下,相比于概念模型,应用图数据模型的扩展性、可靠性和灵活性更好,性能也更高,建立的数据库模型细粒度也更高,尤其适合于关系复杂的数据推理和建模。其中的关系数据库建模的主要任务在于对用户系统中存在的实体集和其联系集进行语义信息建模。其建模的原则如下:
(1)单实体集建模。单实体集相对于其他实体集是独立的,建模时将单实体集作为单节点建模,名称为单节点的标签。
(2)两个实体集具有1:N的关系。语义的含义表明两个实体集之间可以使单向或双向的联系集,要先在规则1条件下进行单节点建模,节点的关系是联系集建模的模型,用带箭头的线段进行连接。
(3)两个实体集具有M:N的关系。按照语义的实际含义,通过M:N联系两个实体集必须是双向的。在规则2的基础上继续进行建模,联系集建模的方式是通过两个方向相反的图模型关系进行建模,而且通过两个单节点关系分别连接从而得到构成图。以X、Y两个实体集 的M:N联系方式为例,两个联系集的属性有XY1、XY2等,当运用E-R图进行关系模式转化时,一般形成实体集是三个,分别是X、Y、XY,其中X、Y的主码 分别是X1和Y1,X1和Y1的属性都会通过复制用于充当外码。 在图模型中,XY联系集都会变为方向相反的两种关系:节点X指向节点Y的X-Y和节点Y指向节点X的Y-X,这两种关系 又各自拥有自身的属性 XY1、XY2及YX1、YX2。
(4)有整体与部分包含关系的实体集建模规则。当整体与部分实体集之间的关系符合1:1或1:N的联系时,首先要根据规则2进行建模。在图模型中,选择关系的方向由整体节点指向部分节点,也可以采用从部分节点指向整体节点的方式,对这两种关系描述可分别用HasParts、Contains、PartOf、ConsistOf等方式进行语义描述。
(5)当实体集之间关系存在父与子关系时,实体集建模规则要符合继承关系。 父子继承关系满足1:1或1:N的联系时,要先在规则2的条件下进行建模。 在图模型中,代表从父节点到子节点的关系的名称为Subclass,用其进行语义描述,对于子节点到父节点的关系可以使用的语义描述有ISA和Subclassof等。
(6)键及数据类型方面的建模规则。在图模型建立过程中没有键的相关概念,但是在属性上需要建立唯一约束,借此来标志关系或者节点,图模型节点及关系拥有类型丰富的属性数据,除了与常用的关系模型具有相同的数值型、日期型、字符型外,还包括扩展数据类型,比如:集合、关系、节点及路径等。
以某大型制造企业为例,其需要将采购的各种毛坯和零部件再继续进行装配和制造,最终做出产品。一般流程是:质检部门对来料检测,验收合格后入库存储,再根据加工订单计划进行物料取用。 由于该企业为汽车生产企业,涉及到的零部件多达10万件,而供应商有上万家,采购入库单每天在500个以上,而且这家企业有计划采用图数据库形式进行物料出入库管理,因此该企业的大数据将非常大且每月增长速度也非常快。前期调研结果表明,该出入库管理系统包括:物料出入库单和明细,供应商和物料信息,货位信息和出入库人员信息等。其中的一对多关系有:供应商与物料、员工与物料入库单、物料入库单与明细。一对一的关系是入库单明细与货位,分配是联系名称。 根据上述提到的建模规则,建立Neo4j图形数据库模型。需要满足的条件是:节点标签要与实体集保持一致;图模型的关系标签要与联系集保持名称一致,同时还要根据需要的不同进行关系属性添加。
建立的图数据要具有可用性、ACID事务、可扩展性等特点,这种数据库非常适合用于图形数据库的建模和管理。Neo4j图形数据库的节点代表的是实体之间的实体集,关系是联系集。其对数据库的操作方式是Cypher(图形查询语言),不需要对图形结构进行代码编写,遍历查询的效率非常高。经过试用,表明这种图数据量建模的方式在数据管理方面优势明显,速度快、准确率高、易于操作管理。
综上所述,图数据建模技术的优势明显,在云环境下,其在大数据的管理和智能搜索方面的作用越来越受到人们的重视。相信在不久的将来,随着图数据建模技术的发展,其将会获得更为广泛的应用。