面向海量无线电监测数据的分布式存储系统研究

2015-01-04 06:10浩,贾年*
成都工业学院学报 2015年2期
关键词:数据类型存储系统数据源

冯 浩,贾 年*

(西华大学 无线电管理技术研究中心,成都 610039)

近年来,各地各级无线电监测站响应国家无线电办公室的要求,加快了小型无线电监测站的建设和发展,监测网络的规模和监测产生的数据量日益庞大的特点愈发突出。同时,国家、省、地市级的无线电监测中心互相传输监测数据的业务需求还没有实现,监测数据的利用率不高。存储系统需要更大的存储容量和更高的可扩充功能,才能满足发展的需要。

随着无线电监测业务迅猛发展,海量级历史数据需要长期存储、高效查询。传统的关系型数据库在存储数据量越来越大的情况下,已经无法满足业务上的实时响应查询的需要。同时,无线电监测工作涉及国防安全,这对存储数据提出了更高的要求。面对如此海量的无线电监测数据,怎样提高数据的存储、查询与分析的效率,这是亟需解决的问题。传统关系型数据库无法满足对海量数据的高效率存储,结构化查询语言(Structured Query Language,SQL)查询效率也非常低,而且无法动态扩展。随着云技术的发展,为存储海量级的无线电监测数据找到了新的方法。本系统选择的Hadoop是一个开源的云计算平台,其核心是Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)、MapReduce和HBase,HBase是一个基于HDFS的开源的、面向列的分布式数据库,可以利用集群处理大数据。

1 存储系统体系结构

由于不同系统集成商提供的监测设备在应用层通信协议上的差异所造成的系统无法互联、互通以及资源无法共享,在国家无线电管理局和国家无线电监测中心推动下,结合《无线电管理VHF/UHF频段监测数据库结构技术标准》,目前的无线电监测数据的编码规范来源于无线电监测网传输协议(Radio Monitor Transfer Protocal,RMTP),数据采集格式统一。

图1 无线电监测数据存储与查询系统架构图

本监测存储系统依托Hadoop平台,海量无线电监测数据存储在HBase数据库,整个系统架构如图1所示。沿着数据的传输方向共有4层:数据源、统一接口平台、存储层和查询层。数据源主要有2个部分:1)各个监测执行站监测设备产生的原始监测数据2)其他关系型数据库中的数据。在向Hadoop云计算系统进行数据转移时,数据源包括所有已存在的数据库。不同类型的数据源的存储方式和具体数据类型和结构都有所不同,针对不同类型的数据源,在连接HBase过程中,所用的方法也是千差万别。于是设计了一个统一接口平台(Unified Interface Platform,UIP)。存储层对监测数据进行持久化存储,监测数据保存在HBase中。查询层负责响应监测人员的查询、分析操作,提交查询请求、接收并解析,通过统一接口向外输出。下面将对监测数据查询系统中的UIP、存储层、查询层以及时间同步系统(Time Synchronization System,TSS)的设计做详细介绍。

1.1 统一接口平台

数据源的类型很多,UIP为不同结构的监测数据提供统一的接口,在与HBase连接过程中,无需考虑具体的具体细节,其结构如图2所示。传统的关系型数据库通过sqoob法直接导入HBase数据库,监测执行站产生的数据通过UIP提供的适配器进行转换,从而实现了不同数据采用统一接口存入的目标,有效降低了数据源导入HBase数据库的复杂度。服务端口、HBase和ZooKeeper集群的地址等参数保存在UIP,UIP有许多不同类型的适配器,可以让不同类型的数据源导入HBase。UIP优化了不同数据类型的导入方法,针对采用RMTP协议、SCPI协议以及厂家协议的监测数据都有相应的适配器进行转换,提高了数据导入的准确率和效率。

图2 UIP的结构

1.2 存储层

在监测数据存储层结构中,HBase表中的一行数据存储一帧监测数据,Hadoop的HDFS用来存储HBase的数据文件。监测数据存储层结构的设计如图3所示。

图3 无线电监测数据存储层结构

监测站的一帧监测数据中包括许多字段,如经纬度信息、执行结果信息、监测站业务数据、音频数据、单信道中频音频数据、数据描述头、设备参数信息等,它们描述了具体时间点监测数据的信息详情。关系型数据库表的主键是帧头(唯一地标志表中一行监测数据),表的列是监测数据的属性,以此建立监测数据表。监测数据表的结构如表1所示。

表1 监测数据表的结构

1.2.1 帧头说明

RMTP服务端发送的监测数据报文,是由若干个数据帧组成的,每个数据帧,都有一个自描述的帧头,其定义如表2所示。

表2 帧头说明

1.2.2 数据类型

数据类型结构如表3所示,通过帧头中数据类型(nDataType)来识别数据的类型。

表3 数据类型

HBase数据库表中的监测数据是依照RowKey进行结构化存储,这种以单一属性进行存储的方式有许多缺点。例如,当RowKey以时间为时序的时候,当有很多监测执行站都向HBase存入新的数据时,所有的请求都会落入同一个Region,随着数据的增多,新的数据又依次落入下一个 Region,这样,RegionServer的请求压力将会很大。为了避免这种现象的发生,无线电监测数据存储系统的Row Key采用nDataType+Timestamp的方式进行存储。以nDataType作为RowKey的前缀将监测数据进行分组,多个Region共同分担了监测执行站的请求压力,继而再以时间戳为后缀,能够提高对新写入数据查找的效率。当需要对包含海量数据的监测数据表进行数据挖掘时,可以通过nDataType+Timestamp方式快速获取监测数据的信息。

按照ITU的提议,无线电监测数据的占用度统计结果,每隔15 min向数据库写入,其中包括单站频段占用度、信道占用度、多站频段占用度等,在每次监测任务停止后,将电平分布的统计数据存入数据库中。Hadoop的专长是海量数据的存储和处理,可以快速得到占用度等信息。利用Hadoop的快速处理数据的能力,对占用度、时间戳、经纬度、特殊频点等信息进行实时预处理,分别建立分表,极大地提高了查询效率。

表4 固定频率测量表的结构(MyRowKey=nDataType+TimeStamp)

表5 频段扫描表的结构(MyRowKey=nDataType+TimeStamp)

如表4所示,固定频率测量(FIXFQ)表的结构包含Index和DataDetail 2个列族,其中列族 Index存储一帧数据的概要信息,如使用的监测设备和天线、要进行测量的业务、监测执行站编号、发起该功能的监测站的代码、当前测量的优先级代码、控制本监测执行站的监测站代码等。当对包含大量无线电监测数据表进行查询时,能够根据Index迅速查询到相应的概要数据,从而检索到数据的详细信息。

在表5中,频段扫描(FSCAN)表的结构包含Index和Data Detail 2个列族,其中:列族 Index存储一帧数据的概要信息;列族Data Detail是详细数据部分,包括监测频段起始和终止频率、步长、检波方式、极化方式、中频带宽、频段扫描数段数和点数、频段扫描数据值以及音频数据等内容。

表4和表5都给出了一些必要的列,其中列族中的列(如音频数据和频谱数据等)添加时可以不预先说明,监测管理人员负责代维HBase数据库表中的列信息。根据不同查询类型,还设计了中频测量(IF_FQ)表、单频测向(FIXDF)表、中频测向(IF_DF)表、离散扫描(MSCAN)表、宽带测量(WB_FQ)表、宽带测量(WB_FQ)表、宽带测向(WB_DF)表等。

1.3 查询层

查询层用于监测管理人员的查询、统计、分析操作,该层主要由查询接口、请求解析和结果处理组成,其结构如图4所示。查询接口部分是查询完毕返回数据的统一接口,查询请求解析单元根据查询请求,调用相应查询方法,HBase数据库返回的查询结果由结果处理单元统一接受并解析,通过统一的查询接口输出数据。

图4 查询层的设计结构

1.4 时间同步系统的设计

由于Hadoop集群中的设备太多,各种设备的配置和状态都不一样,因此各种设备的时间可能不同步。在平时的实验过程中,发现即使刚开始时候时间同步,工作一段时间后仍然会出现时间不同步的状况。因此,本系统设计了TSS用于集群中的各节点时间自动同步。

集群中的所有设备通过网络时间同步协议(Network Time Synchronization Protocol,NTSP)进行时间同步,其中的一个节点配置为 NTSP服务器,其余的节点作为同步客户机与NTSP服务器进行时间同步。TSS的架构如图5所示。

图5 时间同步系统架构图

2 结语

本文针对无线电数据的数据特征设计了特殊的存储格式,还进行了压缩编码,有效的降低了存储容量并且加速了查询速度。对海量无线电监测数据的分布式系统进行了设计,详细介绍了统一接口平台、存储层、查询层和时间同步系统的设计。同时,HDFS的副本存放策略也可减少因不可抗拒因素导致的数据丢失。通过对无线电监测数据的分布式存储系统的设计,极大地满足了未来海量数据的存储和检索需求。

[1]徐凤琴,贾年.基于膜计算的C波段异常信号特征选择[J].成都工业学院学报,2014,17(4):11-14.

[2]魏家宾.基于Hadoop的海量交易记录查询系统研究[D].南京:南京邮电大学,2013.

[3]王满周.基于RMTP的无线电监测软件设计[D].河南:解放军信息工程大学,2012.

[4]魏青松.大规模分布式存储技术研究[D].成都:电子科技大学,2014.

[5]焦冬冬,徐新国.一种基于HBase的海量微博数据高效存储方案[J].微型机与应用,2014,33(11):75-78.

[6]刘霖.分布式存储系统中的能耗管理策略研究[D].广州:华南理工大学,2013.

[7]吴岳衷,刘琴,李长云,等.基于云存储的网络文档共享研究[J].小型微型计算机系统,2015,36(1):95-99.

[8]陈臣.一种基于新型存储的数字图书馆分布式大数据存储架构[J].现代情报,2015,35(1):100-103.

猜你喜欢
数据类型存储系统数据源
分布式存储系统在企业档案管理中的应用
如何理解数据结构中的抽象数据类型
天河超算存储系统在美创佳绩
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
基于SeisBase模型的地震勘探成果数据管理系统设计
线上众筹产品的特征分析与研究
相似度计算及其在数据挖掘中的应用
华为震撼发布新一代OceanStor 18000 V3系列高端存储系统
基于真值发现的冲突数据源质量评价算法