王磊,陈 磊,张明儒,魏 敏,李晋先
(1.国网新源控股有限公司,北京 100761;2.河北丰宁抽水蓄能有限公司,河北丰宁 068350)
数据存储与信息指令查询共同构成了数据库查询制。数据库的基本类型分为集中式数据库和分布式数据库式[1]。其中,集中式数据库具有内模式、外模式两种组成形式。其构成形式相对较为简单,在执行查询指令时,无需额外处理传输信息参量,只需按照既定执行顺序,按需存储数据文件;分布式数据库则不具备直接执行查询指令的功能,为保证信息文件的传输准确性,系统主机必须借助多个数据载体模块。在记录信息传输行为的同时,提取必要的数据文本,从而使得整个数据库体系始终保持相对完整的存储状态[2]。
由于非结构化数据的连接结构具有多变性,数据库主机难以进行信息转存。这也是导致单位时间内数据信息连接并发个数值不能达到预期水平标准的主要原因。为更好地解决上述问题,传统I/O 模拟器存储网络根据哈希算法区分数据信息,再根据半连接原则,将这些文件参量转存至既定的数据库主机之中[3]。然而此系统的作用能力有限,并不能完全满足实际应用需求。基于此,引入数据库查询思想,设计了一种新型的非结构化数据融合存储系统。
数据融合存储系统的非结构化框架是完整的三级连接形式,即基础存储层、平台服务层与业务应用层。其中,基础存储层在非结构化数据融合存储系统的最下端,可在子系统结构的作用下,保持数据联立集群的完整性[4]。且由于融合服务体系的存在,存储平台结构可直接负担数据库查询指令的接入需求[5]。平台服务层能够实现基础存储层、业务应用层两者之间的信息互通,可在调度链路负载、数据对接等服务的同时,实时处理非结构化数据。业务应用层结构同时搭载多个数据存储载体,生成必要的数据信息融合与检索服务指令。
图1 非结构化存储框架结构
该文设计的非结构化存储框架为融合控制电路、数据存储载体提供了一个相对稳定的系统连接环境。
非结构化数据融合存储系统的控制电路以TMS320 芯片作为核心处理部件,可借助1-8 号传输接口,实现对数据信息参量的按需布施与扩散[6]。整个电路包含4 个接入电阻,其中R1和R2两电阻负责调度TMS320 芯片周围的非结构化数据信息参量。可在数据库主机的作用下,将已生成的查询指令整合为既定传输形式[7]。R3和R4两电阻的接入阻值水平相对较小,仅能承担较少一部分的传输电压,在融合存储系统中负责建立TMS320 芯片与数据存储载体之间的传输连接。
图2 融合控制电路示意图
由于TMS320 芯片外部负载的非结构化数据信息接口数量相对较多,所以在融合存储系统运行过程中,控制电路连接形式改变后,各个接口的实时运行状态也随之发生变化。
为更好地适应数据库查询指令运行需求,融合存储系统中的数据存储载体需要准确区分结构化信息与非结构化信息之间的差别[8]。一般来说,在适应非结构信息的数据存储载体需求的同时,还需要具备如下几方面的能力。
1)在数据库主机中,已生成的数据存储载体模块必须具备区分记录头标区与字段区的能力。对于非结构化信息而言,一个完整数据字符头标区所占据的存储比重往往小于字段区。
2)由于信息参量元素的不同,数据存储载体的连接能力必须满足多样性原则,即连接载体实时数量的变化趋势必须与非结构化信息的传输实值保持一致[9]。
3)数据存储载体中非结构化信息参量的传输行为,必须完全服从系统主机内已生成的数据库查询指令。
在硬件设备结构的支持下,按照查询类型定义、非结构化数据目标优化、数据融合代价估算的处理流程,完成面向数据库查询的非结构化数据融合存储系统的设计。
所谓查询类型是指在执行数据库查询指令时,为实现非结构化数据按需存储而制定的信息参量排查原则。一般来说,随着融合存储系统覆盖面积的增大,数据库查询指令的累积数量也会逐渐增大。在此情况下,待定义的非结构化数据查询类型条件也会不断增多[10]。规定M1、M2代表两个不同的数据库查询节点定义系数,对于非结构化数据融合存储系统而言,在数据传输量不超过额定数值条件的情况下,M1≠M2的不等式条件恒成立。z、v表示两个不同的数据信息查询指征定义项。受到数据库查询指令的影响,在融合存储系统应用过程中,这两项指标参量的数值水平始终保持绝对稳定的存在状态。联立上述物理量,可将非结构化数据的查询类型定义条件表示为:
非结构化数据目标优化是执行数据库查询指令的必要处理环节。为了在最大程度上缓解数据存储载体的工作压力,应保证数据库主机的非结构化信息参量具备最高的整合权限[12]。一般来讲,非结构化数据目标优化的实际执行方向应以保障数据库查询指令的顺利运行为基础。由于融合存储系统始终保持较强的独立性,所以在执行优化处理的过程中,必须同时满足数据库主机的存储需求与非结构化数据的并行传输需求[13-14]。设α1、α2代表两个不同的非结构化数据目标信息参量,f代表既定的数据信息查询系数,β代表数据库存储主机中的信息参量排列系数,联立式(1),将面向数据库查询的非结构化数据目标优化结果表示为:
为提升数据库主机的实时存储能力,融合存储系统中的非结构化数据目标优化指令必须与数据库查询指令保持同步执行状态。
数据融合代价估算是设计非结构化数据融合存储系统的必要执行环节,可在已知非结构化数据目标优化结果的基础上,确定数据库查询指令的执行有效性[15]。规定非结构化数据融合存储系统所执行的所有数据库查询指令应满足定向执行的需求,因此为使数据融合代价估算结果更加趋于真实,应尽可能将非结构化数据的实时传输量控制在相对较低的数值水平。设ε表示非结构化数据的处理融合权限,λ表示面向数据查询的信息参量代价系数,r表示与非结构化数据相关的查询指令导向量,联立式(2),可将面向数据库查询的数据融合代价估算结果表示为:
式中,μ表示存储主机中的数据信息分辨系数,Dˉ表示单位时间内的非结构化数据传输均值,R表示数据信息容差值[16]。在确定数据库查询指令类型的基础上,根据非结构化数据目标优化结果,估算数据融合代价,大幅提升单位时间内的数据信息连接并发个数值。
为了验证非结构化数据融合存储系统的实用性,设计如下对比实验。在非结构化数据传输环境中,首先按照如图3 所示的数据库查询流程对实验组数据参量进行筛选;再利用I/O 模拟器存储网络筛选对照组数据参量;最后对比数据存储过程中的相关指标参量数值[17]。
图3 数据库查询流程
数据存储空间、单位时间内数据信息连接并发个数均能反映数据库主机的实时存储能力。一般来说,存储空间消耗量越小,信息连接并发个数值越大,数据库主机的实时存储能力越强,反之则越弱。
表1 记录了随实验数据增加,实验组、对照组数据存储空间消耗量的具体变化情况。
表1 数据存储空间消耗量
分析表1 可知,在面对等量的数据存储需求时,实验组、对照组所需消耗的存储时间并没有明显差别。在整个实验过程中,始终保持稳定上升的数值变化趋势,但实验前期的上升幅度明显高于实验后期。对于实验组系统而言,其空间消耗量在整个实验过程中始终保持阶段性的稳定变化状态,且实验后期的消耗量均值明显高于实验前期。而对照组系统的空间消耗量数值在整个实验过程中始终不断增大,全局最大值达到了5.1 G,与实验组最大值4.0 G相比,上升了1.1 G。
图4 反映了实验组、对照组数据信息连接并发个数值的具体变化情况。
分析图4 可知,在单位时长为10 s时,实验组、对照组数据信息连接并发个数值的变化趋势始终与理想数值保持一致。在整个实验过程中,三条曲线均保持不断上升的变化趋势。在前20 s的实验时间内,实验组曲线斜率明显更大,代表实验组数据信息连接并发个数值在该段时间内的增大趋势最为明显。从第20 s 开始,实验组曲线斜率虽然开始减小,但其整体均值水平依然远高于另外两条曲线。对照组数据信息连接并发个数值在整个实验过程中基本保持均匀上升的变化趋势。但其最大值仅能达到11 个左右,远低于理想最大值与实验组最大值水平。
图4 单位时间内的数据信息连接并发个数
综上可知,对于面向数据库查询的非结构化数据融合存储系统而言,其存储等量数据信息所需的空间消耗量明显小于传统I/O 模拟器存储网络。且在单位时间内,与之匹配的数据信息连接并发个数值也相对更大,在实际应用方面,其数据库主机所具备的实时存储能力明显更强。
与I/O 模拟器存储网络相比,面向数据库查询的非结构化数据融合存储系统,针对数据库主机存储能力较弱的问题进行了改进。利用融合控制电路、数据存储载体等硬件应用结构,估算数据融合代价的实际数值。从实用性角度来看,与该系统相关的数据存储空间消耗量水平相对更低。而单位时间内的数据信息连接并发个数值却相对更大,符合提升数据库主机实时存储能力的实际应用需求。