基于大数据分析的分布式MOLAP技术研究

2020-06-04 12:19姜技
无线互联科技 2020年8期

姜技

摘   要:在计算机系统运行以及研究环节中,会存在大量的规模效应,此类状况难以避免,要想有效解决此类问题,就需要利用分布式的处理方式,开展对文件系统的分析。文章对分布式多维联机分析过程(MOLAP)的数据模型进行了分析,从维编码的算法、映射归约(MapReduce)算法的实现、分析维的遍历算法等方面作深入探讨。

关键词:分布式处理;多维联机分析过程;维编码算法

多维联机分析过程(Multidimension Online Analytical Processing,MOLAP)技术通常是指以MapReduce程序为基础,一般用于加强对计算机系统的处置和管理。在信息数据的多个层次和维度运行中,一般会借助遍历算法以及维编码的直接操作等流程,实现高质量运转。在目前的发展环节,为提高总体的信息技术处置状况质量,需要加强对MOLAP技术的使用。

1    数据模型

MOLAP具体的运行内容分为维和实际状况两个方面。在运行环节,核心部分是探寻在维和事实中所存在的映射联系性。通常情况下,在管理过程中,使用较为传统的ROLAP技术能将数据库和星形模型相连,在发散自身维度信息的过程中,还会实现事实信息的有效存储。采用外键存在联系之内的映射关系反应会增加整体运行效率和成果。但是在实际操作和运行的阶段中,工作人员还需要联合实际性的操作状况,促使操作流程和相对应的运行效率不断提升。首先,在一种多维度的数据运转模型处理过程中,将大量的数据开展分类处理时,维就会将多种偶数据放置在一个含有多种层叠联系的数据构造中,并提供大量和数据之间的运行和筛选方式,核算具体的组织方法。在针对此环节的分析和研究过程中,通常需要事先将维具体内涵开展简化处理工作,实现对多维度数据模型的研究和简化,具体的简化处理工作会受到以下环节制约。例如,设定A为维,则相对应的A含有维层次,但是具体维层次的具体数量会为1,A本质上是一种由多个N维级所构成的一种集合体方式,设定(i∈[1,n])是一种随意的维级别,存在一种维度的属性,含带具体的数值。可以将A视为和其余级别位属性数据相单独构成的一种结构,在具体的同一类型的节点会存在不同子节点数。其次,在度量的设计中,将度量K设定为一种单独的度量,遵循参考维度值方式将其视为在MOLAP环节中所研究的对象,在此环节中,往往会需要将较为细粒程度的度量作为在维度中存在的较小维度值。再次,在单元格的设定过程中,工作人员能够在总体逻辑视图环节中开展详细的分析和研究,单元格本质上是通过不同种类的度量得以展现的,此类度量能够以一种相同的维值作为后期研究对象,所以单元格经常会被视为度量的有效结合体。最后,在数据立方的定义中,会遵循上述的过程,数据立方往往是MOLAP内部所存在的一种多维度构造,是通过多种单元格搭建形成的。块的定义通常是立方数据的思维分析图,其内部每一个数据立方均可以依照维构建不同的数值[1]。

2    维编码的算法

维编码往往会涉及两类形式,分别为二进制编码算法以及十进制的编码算法。二进制的编码算法是采用对多个编码的构造从而展现对多类维信息的概述,利用位移的方式展现对维的遍阅。但是在一般情况下,在此二进制的编码系统内部中会存在个别漏洞,有少部分的设置还不完善。十进制的编码运算较为清晰,有利于工作人员针对个级维的数据进行调整,保障后期的编码运算工作,但是此步骤需要利用编码以及维值内部含带的映射状况作调整。为防止在运行的环节中存在弊端,影响到后期的工作,就应当采用MOLAP技术利用十进制编码算法,从而设定1和维A内存在的个维级别。

在实际的使用环节中,大量的数值均是采用维的数值形式得以展现,比如,在高度以及价格方面,此类数据的模式维会根據所述值域的不同种类开展具体划分形式,多种划分模式内部含有的步长会存在大量维级别。因此,数值的维符合现实约束状况,但是还会存在少量的费数值,涉及多个部门以及城市和相对应的日期等环节。根据实际运行能够得到空值和需要填补的维值数,在同一种关键节点中涵盖相同数量的子节点。工作人员可以根据确切参考日期获得相对应的数据编码结果。在通常情况下,以月级别为前提的每个月天数均会存在差异性,但是在此环节中,要想实现对此种技术的应用和运行,需要加强对此环节的定义,并将具体的设定为每月均为31天的等量。因此,工作人员就会在二月份增加30号以及31号。维在具体的运行环节中均会变得复杂。为提升实际工作的质量和运行效率,需要将其进行转化。维层次的计算和运转方式有多种,涉及维值数法。为满足先前的定义状况,就需要采用上述方式。在技术人员处置的过程中,往往会采用合并以及取舍的方式,促使TCP-H的运行模式有序地进行简化工作,只有将其转变为相对应的星形模块,才会使最后的运算结果符合单边带(Single Side Band,SSB)数据集中化的维模式。针对Supplier的维表进行研究,需要采用区域分化的方式展开,此类形式需要存在区域属性才能实现后续的维度层次。在此环境下,应采用维值数的形式增加空值,从而满足当前的定义形式,最终符合实际运用中的诸多形式[2]。

3    MapReduce算法的实现

OLAP算法在细节上涉及上卷算法以及切片算法等方式。在通常情况下,切块算法以及切片算法利用最基础的工程在一定限度的环节中展现和查询,上卷算法以及下钻算法在运行过程中的主要能力是范围查询以及对数据进行采集。OLAP具体的运行操作形式经常会被分化为4种类型,在实际应用中会涉及Target,代表着在等待分析过程中的众多元数据,即Range,在等待分析的元数据阶段中会存在Aggregation范围。此类算法的使用,在早期往往会存在OLAP 4种属性的组合,之后会经由电子计算机设备的系统性审验处理之后,并实现其运行过程中的高效性,避免在执行任务的过程中,由于结果促使后期的运作出现中断。在此过程中,会获得输入模块的具体列表,此类状况是利用对块的选用,从而得以实现,将单元内部的格以反线性的方式予以处置,依照输入字段开展对单元格数据的及时处理。如果单元格数据要想满足前期的数据研究,就应当加强对其的后期化处置,但也会存在单元格无法满足当前运行形势的状况,促使其运算数据远远不能满足,单元格就会被抛弃,不能开展访问工作。

4    分析维的遍历算法

在DOLAP的维护工作人员的运行过程中,通常均会以单根数的方式实现计算,将其视为Td,但是在此过程中需要掌控ALL,并将其视为整体的Td根节点,将其视作第0级别,并将多个级别运行环节中的维值视作具体的子节点。在开展一系列的OLAP的运行阶段中,工作人员应当对维值树Td作遍历操控,但是此工作频率较强,实际的工作总量较多。例如,在Td降低或者上升的状况下,将其的关系设定为i∈[1,m1],li+1ldi,之后将其中的li+1转变为li。在此过程中需要明确vi+1=vi,此环节较为关键,采用制定兵编码体制,从而就会得到之间的联系性。此类上卷关系能够采用编码运算的方式展现在Td中的运算操作。

5    OLAP算法的剖析

通过针对OLAP的运算以及MapReduce做以研究的过程中,在其内部确立不同的视角,并在使用OLAP运算的环节中,促使其抽象的四元组可以实现分化展示,Target是分析数据立方的元数据研究,Range是立方环节中所采用的数据分析研究范围。Aggregation通常是指相对应的聚集函数。在研究Result表示元数据的过程中,一旦Target内部的最高值较低时,就代表着上卷操作已经可以完工,输入以及对外输出的环节都是数据立方。工作人员需要明确查询之后所出现的立方状况,在此情况下,就会导致Result,Target两者的维度均能够有所差异性。通常情况下,会采用维度的分析从而实现对度量的询问,针对OLAP运算状况,可以明确具体的操作查询的维度构造,Range本质上是属于一个多维度的二元组,详细分析在内部运行的数据范围[3]。此类算法和传统的MapReduce对比,需要采用较为特殊的多维模型以便于和后期的度量开展组织对比。在此过程中,所付出的存储代价较低,有利于工作人员在实践环节得到明确的信息,目前,此情况应用频率较多。

6    分析數据的存储

针对传统的DOLAP技术进行分析,采用数据立方的存储形式前期投资成本较高,并且运行过程复杂,特别是在运行高纬数据的过程中所采用的存储方式,内部会含带大量的维值,相对应的存储成本较高。在传统技术下,往往会使用访问环节中的多维数组从而提升后期OLAP的运行,但在大数据环境下的具体操作较为困难。在多维运行环节中往往是采用计算机系统实现的,可以不采用存储的方式,在现代的数据立方管理环节上存储的代价较小。DOLAP技术往往会对维的方式进行简化处理,保障在同一种级别上还可以实现上维编码的十进制数。

7    结语

综上所述,利用上述大数据运行过程中对DOLAP技术的研究,此类技术往往能够采用特殊的多维模型对度量的方式开展运算,通过维编码和遍历算法的分析,能完成对维值数的上卷下钻管制工作。在大数据的分析过程中,采用此类技术有助于保证计算机系统实现高质量运转,从而有效推动社会的进步。

[参考文献]

[1]刘琴.大数据分析下分布式数据流处理技术研究[J].软件工程,2019(12):44-46.

[2]田英.基于大数据分析的分布式文件系统关键技术[J].信息与电脑(理论版),2019(15):140-141.

[3]王春凯,孟小峰.分布式数据流关系查询技术研究[J].计算机学报,2016(1):80-96.

Abstract:In the process of computer system operation and research, there will be a lot of scale effect, which is hard to avoid. In order to solve this kind of problem effectively, it is needed to use the distributed processing method to analyze the file system. In this paper, the distributed MOLAP overview and data model are analyzed, and the algorithm of dimension coding, the implementation of Map Reduce algorithm and the algorithm of dimension traversal are discussed.

Key words:distributed processing; multidimension online analytical processing; dimensional coding algorithm