刘峰 叶红
摘 要 在数据库技术发展的基础上,企业建立了大量的数据仓库,通过数据仓库实现数据向决策信息的转化。随着计算机应用的不断推广,信息网络应运而生,有着非常广泛的应用,主要包括同构信息网络与异构信息网络两种实体类型,包含了大量的实体信息与实体关联信息。从多维视角对信息网络进行分析具有非常重要的意义,本文针对同构信息网络提出了简单嵌套立方体,针对异构信息网络提出了多层嵌套立方体。
【关键词】信息网络 简单嵌套立方体 多层嵌套立方体
随着计算机技术的发展与数据库应用的普及,数据主要划分为操作性与分析性两种类型。两种数据处理的特点不同决定了其数据环境不同,由此而产生了数据仓库,通过联机分析处理方法为决策提供依据。当前,新型数据的出现对联机分析处理技术提出了新的要求,需要对其进行创新。信息网络中的连接分析处理技术面临的挑战为需要一种新的多维数据模型来对信息网络进行描述,当数据模型发生变化之后,数据存储模式及物化等都会发生变化,需要实现联机分析处理技术的创新。
1 信息网络概述
数据库并不仅仅是指出数据存储与检索的仓库,其中包含了非常多的数据类型及相同或不同数据类型之间所存在的关联信息等。数据库中所包含的数据及数据间的关联形成了信息网络,从而对更具有意义的信息进行挖掘。
当前,在对信息网络进行分析的过程中缺乏多维分析工具,对联机分析处理提出了新的挑战。信息网络中所包含的结点代表的是实体,所包含的便代表的是实体之间的关系。如果信息网络中的节点类型相同,则形成同构信息网络;如果信息网络中结点类型不同,则形成异构信息网络。在日常生活中信息网络有着广泛的应用,例如Facebook、DBLP等。
传统的联机分析处理技术是以数据立方体为基础的,但是其中只能够存在一种实体类型且实体类型之间不存在关联。这就导致了连接分析处理技术不能够对信息网络多维分析问题进行解决。
2 多维分析视角的同构信息网络分析
2.1 多维网络
同构信息网络属于新型的数据形式,为了对其进行分析需要实现简单模型的建立,以该模型为基础进行分析操作。将同构信息网络进行抽象之后就得到了多维网络模型。
例如一个小型的社交网络,将社交网络中的每一个人都视为一个节点,每一个节点都具有姓名、国籍、职业、年龄、学历等多维属性。两个节点之间的连线代表着两人的朋友关系,可以实现信息的共享,因此两节点之间的线中都包含了多条信息,而每条信息中又包含了ID、信息、主题等多维属性。通过多维网络实现了对社交网络的建模,从而对社交网络中的实体信息进行了展示,从而将实体与实体之间具体的关系进行了表示。
2.2 简单嵌套立方体中的联机分析处理操作
在对简单嵌套立方体进行分析的过程中,选取双向两层联机分析处理查询方式,主要包括点到边的查询与边到点的查询两种类型。为了能够对这种查询进行更好的理解,沿用上文社交网络的例子来进行说明。在多维网络中可能存在的联机分析处理类型的查询包括:第一,不同国家的人如何实现信息的共享及信息在不同类别如何发布;第二,对特点信息进行分享的人在职业方面的结构分布。这两个查询都涉及到多维网络的聚集操作,首先从对应的图立方体中找到对应的度量网络,之后从对应的数据立方体中找到答案对应的度量。
首先,点到边的查询。首先对结点进行分析,之后再对边进行分析,也就是所谓的先对图立方体进行多维分析,之后再对动态生成的数据立方体进行多维分析。在对上面的第一个类型进行查询的过程中,首先依据国籍维度对所有的节点进行分组,将在国籍方面具有相同值的节点划分到同一组中,同时将这些节点对应的边进行合并,从而得到不同国籍之间所分享的信息,之后再对这些分享信息按照类别对其进行划分。
其次,边到点的查询。首先对边进行联机分析查询,之后再对节点进行分析,也就是说先对内层数据立方体进行分析,之后再对动态生成的图立方体进行分析。在对上文第二类型进行查询的过程中,首先应该对所有的共享信息的类别分布进行计算,之后在对特定的类型进行选定,从而对该类别信息进行分享的人进行选择,之后在对这些选择的人的职业拓扑情况进行计算。通过对共享信息类别的分布进行计算得知人们对政治信息关注较多,在选定了政治类别的信息之后,对共享这些政治信息的人们的职业拓扑分布进行计算,从而得知教师、医师之间进行政治信息共享的较多。
3 多维分析视角的异构信息网络分析
3.1 多维异构网络
图1代表一个小型的多维异构网络,其中结点代表两种实体,方形代表的是作者,三角形代表的是论文,两者之间的连线代表论文是该作者所发表,若两个三角形指向一个方形,则证明两篇论文为同一位作家所发表,如果两个方形指向一个三角形,则证明两位作家共同发表了一篇论文。图1中的多维异构网络对文献网络进行了形象的刻画,一方面对作者的合作关系与论文的出处关系进行了表达,另一方面对作者与论文两种之间类型之间的关系进行了表达。在多维网络中包含了两种不同类型的实体,因此将其称之为两类型多维异构网络。
3.2 两层嵌套立方体
通过两类型多维异构网络可以实现两层嵌套立方体的获得,由图1所示的两类型多维异构网络可知两层嵌套立方体主要包括两种情况:第一,重视对V1类型实体与实体之间的关联进行重点研究,则V1类型实体的属性构成了未曾图立方体的维度,通过对其属性子集聚集进行计算得到图立方体,将图立方体的度量作为度量网络,将V1实体进行分组,不同小组之间的V2类型实体的属性构成了内层数据立方体的维,通过对其属性子集聚集进行计算得到数据立方体。数据立方体存在与图立方体的度量中,两者之前形成嵌套关系。第二,重视对V2类型实体与实体之间的关联进行重点研究,将V2实体集合构成外层他立方体,V1类型实体结合构成内层数据立方体,两者自检相互嵌套。
综上所述,两层嵌套立方体指的是外层图立方体中包含内层数据立方体,同一种类型的实体既可以构成内层图立方体,也可以构成外层的数据立方体。因此,同一个两种类型多维异构网络依据分析角度可以分为两个两层嵌套立方体。在两层嵌套立方体中,两类对象存在既独立又关联的关系。
3.3 多层嵌套立方体
两种类型的多维网络能够形成对应的两层嵌套立方体。在异构信息网络中,实体类型包括多种类型,两层嵌套立方体可以扩展成为多层嵌套立方体。例如三种类型的异构网络能够形成六个不同的三层嵌套立方体。因此,多维网络中的N个实体类型与实体类型之间存在的内在联系能够在异构网络中形成N!个N层嵌套立方体,不同的实体类型能够在任意一层中出现,但是只能够出现在一层中。
3.4 多层嵌套立方体上的联机分析处理操作
在对传统的数据立方体进行操作的过程中,主要的操作类型包括切片、上卷、切块等。这些操作方式在多层嵌套立方体中同样适应。此外,还可以通过复合查询的方式对多层嵌套立方体中的多种类型分析对象进行查询。在多层嵌套立方体的联机分析处理操作过程中,N层嵌套立方体上的复合查询需要N-1次转换分析对象操作,从而形成N-1个部分立方体。
4 总结
在信息网络多维分析方法的研究方面已经取得了一定的成果,在已有的研究方法中不能够实现对同构信息网络的联系进行深入分析,而且对异构信息网络的研究也较为缺乏。本文通过立方体相互嵌套的思想对信息网络的多维视角分析问题进行了解决。针对同构信息网络提出了简单嵌套立方体,针对异构信息网络提出了多层嵌套立方体,对两者之间的区别与联系进行了研究,为基于多维分析视角的信息网络研究奠定了理论基础。
参考文献
[1]王杰.信息网络传播权与图书馆信息资源共享的利益冲突分析[J].佳木斯大学社会科学学报,2012,01(36):174-175.
[2]聂章艳,李川,唐常杰,徐洪宇,张永辉,杨宁.面向OLGP的多维信息网络数据仓库模型设计[J].计算机科学与探索,2014,01(32):51-60.
[3]甘亮,李润恒,贾焰,刘健.HS-Stream Cube:网络安全事件流实时多维分析系统[J].计算机工程与科学,2013,03(24):72-79.
[4]尹为,张成虎,甘凯.基于数据流多维分析的可疑金融交易动态识别[J].北京理工大学学报(社会科学版),2013,05(15):52-59.
作者单位
陕西省科技资源统筹中心 陕西省西安市 710075