气象数据文件检索与传输方法对比分析与应用

2015-12-26 12:04刘高平叶金印
软件 2015年6期
关键词:对比分析检索传输

刘高平+叶金印

摘要:优化多源异构气象数据文件的检索与传输方式可以缩短气象信息查询响应时间,提高天气预报业务工作效率。基于安徽省气象台天气预报计算机网络系统环境,以气象卫星、天气雷达、闪电定位仪、自动气象站观测资料以及数值天气预报产品等主要气象数据文件为研究对象,对比分析不同检索和传输方法的检索时间和传输效率。结果表明,使用非规范技术元数据技术可有效提高气象数据文件检索效率,GridFTP数据传输方式效率最高;采用非规范技术元数据检索与多文件压缩传输的组合策略能有效缩短气象信息查询的响应时间。

关键词:气象数据文件;检索;传输;对比分析

中图分类号:P409

文献标识码:A

DOI:10.3969/j.issn.1003-6970.2015.06.009

本文著录格式:刘高平,叶金印,气象数据文件检索与传输方法对比分析与应用[J].软件,2015,36(6):42-46

ComparativeAnalysisandApplicationoftheMeteorologicalDataFileRetrievalandTransmissionMethods

LIUGao-ping,YEJin-yin[Abstract]:Optimizingtheretrievalandtransmissionmodeofmulti-sourceheterogeneousdatacouldshortentheresponsetimeofmeteorologicalinformationqueryandimprovetheefficiencyofweatherforecast.Basedontheweath-erforecastcomputernetworkenvironmentofAnhuiMeteorologicalObservatorytheretrievaltimeandtransmissionefficiencyofdifferentretrievalandtransmissionmodeswerecomparedandanalyzedbytakingmainmeteorologicaldataasresearchob.jects,suchassatellitedata,radardata,lightninglocatordata,automaticweatherstationdataandnu-mericalweatherpredictionproducts.Theresultsindicatedthattheretrievalefficiencyofmeteorologicaldatacanbeimprovedeffectivelybyutilizingdenormalizationtechnologytomanagemetadata.GridFTPdatatransmissionmodehadthehighestefficiency.Theresponsetimeofthemeteorologicalinformationquerywasshortenedbythecombina-tionofthemetadataretrievalusingdenormalizationtechniqueandmulti-filecompressiontransmission.

[Keywords]:Meteorologicaldatafiles;Retrieval;Transmission;Comparativeanalysis

0引言

自动气象站、闪电定位仪、雷达、卫星等自动观测仪器在气象业务中广泛应用,这些仪器观测频率高且生成不同格式气象数据文件,逐渐形成了结构复杂、文件格式各异、数量庞大的文件系统[1-2]。

由于气象数据结构复杂,气象数据文件检索与传输是影响天气预报工作效率的一个重要环节[3],特别是遇到突发天气时,气象监测预警数据能否及时到达业务系统直接影响到预报服务的效果[4]。气象业务现行业务系统数据文件检索与传输方案的效率已经不能满足业务需要[5]。因此,本文通过对多源异构气象数据文件检索和传输方法进行对比分析,提出采用非规范技术元数据检索与多文件压缩传输的组合策略,以缩短天气预报业务中气象信息查询的响应时间。

1文件系统概述

气象台站每日采集的气象数据文件主要包括气象卫星、数值预报产品、天气雷达、闪电定位以及白动气象站观测资料,数据总量约为120G,大部分文件大小集中在2KB~60M。常用的几大类气象数据文件系统信息如表1所示。

2试验环境

以安徽省气象台现行天气预报业务系统计算机网络为试验环境,进行气象数据文件检索与传输方法对比分析。服务器端软件均使用GridFTP.NET,主机信息见表2。

客户机使用SSD硬盘,试验时GridFTP的TCPBufferSize设置为128KB,设置为并行传输(parallelism=2),其他均为默认参数。在表2中IP为10.129.4.147的机器上建立了一台FTP和SFTP服务器,测试FTP和SFTP传输效率。

3文件检索方法对比分析

由于气象数据文件命名规则的复杂性,天气预报业务系统通过命名规则来定位文件存在困难[6],因此需要通过文件系统进行检索。气象数据文件传输一般采用NFS文件共享传输方式,其基本原理是通过TCP或UDP协议访问和传输[7]。文件共享检索方式由系统自动调整,虽然方便简易,但共享的文件数量较大时,检索效率随之降低[8]。

元数据技术是解决大规模数据文件检索的有效解决方案[9]。元数据是“关于数据的数据”,是一种规范法的描述信息,记录了数据的来龙去脉,但随着文件数量不断增大,元数据的量随之增加,使得元数据检索效率降低[10]。利用非规范技术元数据可简化逻辑、解除多个表之间的联合查询[11],从而提高检索效率。因此,本文针对气象数据文件多源异构、数据量大的特点,采用非规范技术设计元数据,建立目录名、文件名、文件大小、数据类型、文件格式、数据日期等字段的非规范技术元数据表(表3)。元数据表名与文件系统的目录名通过一定规则对应,在一张表中检索所需气象数据文件,简化录入和渎取过程。

对文件共享检索方式和非规范技术元数据检索方式进行100次检索试验,对比分析两种方式平均检索耗时(图1)。非规范技术元数据检索方式的平均耗时大大低于文件共享检索方式,两种文件检索方式的耗时都会随着目录中文件数量的增加而增长,但元数据检索方式的耗时增长速度大大低于文件共享方式检索。

4文件传输方式对比分析

本文将气象数据文件传输分为单文件和多文件两种情形,分别进行对比分析。

4.1单文件传输对比分析

现行天气预报业务系统

图1文件共享检索方式与非规范技术元数据检索耗时对比图使用的数据传输协议主要有FTP、SFTP、GridFTP等[1,12]。FTP使用方便,但小文件传输效率不高;SFTP是安全强化版的FTP,常用于传输包含机密数据的小文件;GridFTP是网格环境中FTP的一种安全、快速、高效、可靠的扩展版本。通过对SK、50K、500K、SM、50M、500M的单文件进行传输速度对比分析。三种传输协议与文件共享方式传输速率对比结果见图2。

GridFTP在大文件传输方面有一定优势,尤其是文件在500K以上时;局域网文件共享和FTP方式速度相当。在传输大于500M文件时,FTP、GridFTP以及文件共享方式的传输速率都超过60Mbps,已经超过ATA硬盘的写入速度。

4.2多文件传输对比分析

多文件传输时可采用无损压缩技术对其进行压缩,传输完成后再解压缩。但压缩后再传输是否能提升传输效率由网络带宽、压缩速度和解压缩速度三个参数共同决定。公式(1)成立时,使用压缩传输可以提升效率。

Tzip+Tuzip+Ttzip

式中Tzip为压缩时长,Tuzip为解压缩时长,Ttzin为传输压缩文件时长,Tt为不压缩时传输时长。Tt和Tuzip由算法和传输机器的相关性能和压缩解压缩算法决定,而Tt:ip由文件大小、网络速率、传输协议等参数决定。为了找到压缩传输的临界条件,定义:

γ=(Tmor-Tcom)/(Tnor+Tcom)(2)

式中Tcom为压缩后传输方案耗时,Tnor为不压缩传输方案耗时。γ越小,表明压缩传输和不压缩传输效率越接近。

传输对比试验方案设计如下:根据文件平均字节数β,分7组文件进行测试,β∈(2KB、SKB、8KB、11KB,14KB、17KB、20KB)。传输方式采用GridFTP,得到压缩传输与不压缩传输效率相当的文件个数。第1次选取1个大小为β的文件进行压缩传输和不压缩传输测试,记录γ;第2次选取2个文件平均大小为β的文件进行压缩传输和不压缩传输测试,记录γ;依次类推进行测试,直至找到大于0的最小γ值,记录此时文件个数。对于不同大小文件,压缩与不压缩传输效率相当时,文件大小与文件个数折线图与拟合曲线如图3所示。例如,当文件平均大小为SKB,个数为10个时压缩传输与不压缩传输相率相当。

可以看出压缩传输方案与不压缩传输方案效率相当时的文件个数随所需传输的文件平均大小而增加,当文件个数N满足:

N>0.23β2—0.8β3+7.4(3)

时,可以使用压缩传输方案。式中,β为文件平均大小,单位为KB。

5检索与传输组合方案试验

试验采用两种方案:方案A为现行业务中文件共享方式检索传输;方案B为组合方案使用试验中效率较高的非规范技术元数据进行检索和利用公式(3)判断是否进行压缩传输。使用方案A和方案B对表1中的5种气象数据文件进行检索传输试验,试验a为检索船速每种气象数据文件10个,试验b检索传输每种气象数据文件100个,重复试验100次得到图4(a)和(b)所示的检索传输平均耗时对比图。

从图4(a)和(b)中可以看出:方案A在检索传输自动气象站数据文件时,不论传输文件多少,用时均超过33秒,由于自动气象站文件平均大小仅为2KB,传输时会间短,可见文件检索占了整个过程绝大部分时间;方案B检索传输10个和100个自动气象站、雷达、闪电定位数据文件时耗时相差不大,这是由于在传输100小文件时,方案B满足公式c3)使用了压缩传输策略,说明压缩解压传输策略起到提升效率的作用;在数据文件数量不多且文件尺寸较大时两者效率相当;总体而言,方案B传输效率明显高于方案A,尤其在小文件传输方面。

6结论

本文以安徽省气象台天气预报计算机网络系统和气象数据文件系统为应用背景,对比分析了文件共享和非规范技术元数据检索效率、压缩传输与不压缩传输策略,得到如下结论:

(1)使用非规范技术元数据可大大提升气象数据文件检索效率。

(2)试验的多种传输方法中GridFTP效率最高。

(3)本文采用非规范技术元数据检索与公式(3)判断是否压缩传输的组合策略在自动气象站、天气雷达、闪电定位等小文件方面传输方面效率优势明显。

本文中的各项试验均是在特定的网络环境下完成应用对比,有待在不同的网络环境下进行深入的研究分析。

参考文献

[1]陆颖华,马廷淮,曹浩,等.大量气象数据小文件自适应优化传输[J].应用气象学报,2014,25(5):629-637.

[2]薛胜军,刘寅.基于Hadoop的气象信息数据仓库建立与测试[J].计算机测量与控制,2012,04:926-928+932.

[3]裴羽中,宋连春,吴可军,等.我国综合气象观测运行监控系统的设计与实践[J].气象,2011,02:213-218.

[4]马渝勇,方国强,向继涛,等.省级气象信息网络系统的整体设计与实现[J].计算机应用研究,2012,04:1374-1377.

[5]刘立明,王彬.气象网格环境下大数据的端到端传输机制研究[J].计算技术与自动化,2014,01:122-126.

[6]高峰,王国复,喻雯,等.气象数据文件快速下载服务系统的设计与实现[J].应用气象学报,2010,02:243-249.

[7]胡晓晔,王能辉.网络文件系统的安全性分析与改进[J].煤炭技术,2012,02:243-244.

[8]杨彬.分布式文件系统HDFS处理小文件的优化方案[J].软件,2014,35(6):65-69.

[9]高沛鑫.论元数据及其作用[J]软件,2014,35(3):201-202.

[10]赵丹.基于网格技术的分布式异构空间数据访问及集成研究[J].软件,2013,34(4):113-116.

[11]周敏,汪新庆.基于非规范化和数据字典的地学元数据管理[J].计算机技术与展,2015,03:175-179.

[12]王甫棣.国内气象通信系统的设计与实现[J].计算机应用,2012,S2:220-225.

猜你喜欢
对比分析检索传输
混合型随机微分方程的传输不等式
牵引8K超高清传输时代 FIBBR Pure38K
2019年第4-6期便捷检索目录
关于无线电力传输的探究
支持长距离4K HDR传输 AudioQuest Pearl、 Forest、 Cinnamon HDMI线
专利检索中“语义”的表现
国际标准检索
国际标准检索