遥感卫星数据异地备份技术研究

2015-03-11 02:13:34冯旭祥冯钟葵陈俊唐梦辉张洪群付晓波
遥感信息 2015年4期
关键词:网络带宽历史数据数据量

冯旭祥,冯钟葵,陈俊,唐梦辉,张洪群,付晓波

(1.中国科学院遥感与数字地球研究所,北京100094;2.内蒙古电力集团培训中心,呼和浩特010010)

遥感卫星数据异地备份技术研究

冯旭祥1,冯钟葵1,陈俊1,唐梦辉1,张洪群1,付晓波2

(1.中国科学院遥感与数字地球研究所,北京100094;2.内蒙古电力集团培训中心,呼和浩特010010)

为了有效解决遥感卫星数据的安全存储问题,该文研究了一种基于网络技术的遥感卫星数据异地备份方法。在充分考虑遥感卫星数据的结构、组成、存储形式和遥感卫星数据备份的特点的基础上,对遥感卫星数据异地备份中的异地备份站点选择、备份数据管理、数据一致性、数据恢复以及备份的创建方法等问题进行了分析,并提出了解决的方法与技术;随后引入了应用系统示例。该应用系统的运行结果显示该文研究的遥感卫星数据异地备份技术可以有效完成遥感卫星数据的异地备份。

遥感卫星数据;异地备份;备份一致性;数据恢复;备份管理;备份站点

0 引 言

目前遥感卫星数据的存档多采用本地存储和单介质保存,一旦发生火灾、地震等灾害将可能造成数据损毁或丢失。为了有效地保护国家珍贵的遥感卫星数据资源,需要建立一套高效的遥感卫星数据异地备份机制,即在异地创建遥感卫星数据的备份存储和管理,以有效解决卫星数据的安全存储问题。

早期的遥感卫星数据异地备份一般是利用交通工具将载有遥感卫星数据的移动介质从本地站点运送到异地站点进行保存。此种方法虽然能够保证数据的异地备份,但具有明显的弊端,主要体现在:①备份时效性差、费用高,选择的异地站点一般距本地站点较远(几百至几千公里),使用交通工具进行运送的时间开销会较大且备份费用高。②备份管理难度大,由于备份的移动介质处于离线状态,因此无法获取备份数据的状态,也不便于对已备份数据进行检索。③备份数据恢复过程复杂且恢复速度较慢。④备份数据的存储质量难以保证,如果一旦移动介质出现问题,所备份的数据也将难以恢复。

随着网络技术的发展,越来越多的数据异地备份采用了基于网络的备份方法,市场上也有较多的数据异地备份软件,如Symantec NetBackup、IBM TSM和EMC Networker等,主要应用于银行、网站和图书馆系统,完成对单一的文件数据和数据库的备份。但是,这些备份软件不能实现对遥感卫星数据各组成部分的同步备份并保持各组成部分的一致性,因此无法满足遥感卫星数据异地备份的需求。

针对以上问题,本文在充分考虑遥感卫星数据及其备份特点基础上,对遥感卫星数据进行异地备份的关键技术要点进行了深入分析,给出了对遥感卫星数据进行有效异地备份的解决方案,包括如何选择备份站点、备份数据的管理、数据的一致性保持、数据恢复以及备份创建方法等。本文还基于上述方案给出了一个有效解决遥感卫星数据异地备份问题的应用实例。

1 卫星数据及异地备份的特点

为便于遥感卫星数据存储管理及后续的产品处理,遥感卫星原始数据通常进行简单的格式编排,以单轨(或数据段)数据为单位形成文件进行存档,称为卫星数据存档文件。此外,基于对遥感卫星数据进行查询、访问的需求,还需对与卫星数据存档文件建立与之关联的元数据文件和浏览图文件并进行存档。因此,遥感卫星数据备份主要是考虑如何对这三类文件进行备份管理。一般地,这三类文件的存档形式如下[1-4]:①卫星数据存档文件。包含整轨(或数据段)卫星数据,一般在几十MB至几十GB大小,以二进制文件的形式存放于文件系统中。为方便进行数据管理和访问,需在数据库中记录存档数据文件的路径信息;卫星数据存档文件一般采用分级存储。分级存储包括在线存储、近线存储和离线存储三级,一般地,在线存储采用高速磁盘,近线存储采用磁带库,离线存储采用磁带[4-6]。②元数据文件。包含卫星数据存档文件的属性信息,文件经过解析,属性信息注入数据库中作为数据记录进行存档[4,7]。③浏览图文件。包含卫星数据存档文件中整轨和单景卫星数据的浏览图,一般在1MB以下。以文件的形式存放在文件系统中,同时在数据库中记录浏览图文件的路径。

遥感卫星数据的异地备份具有以下特点[4-6]:①数据总量大且单个数据文件较大,备份的创建与维护困难。随着卫星数量增加、卫星分辨率的提高,遥感卫星数据量增长飞快。以2013年发射的高分一号卫星为例,按每天下传4轨数据,每轨数据10分钟,则每轨数据大小约为63GB,每天产生数量约为254GB,每年产生数据量约为93TB。综合考虑目前在轨的卫星和已完成规划即将发射运行的卫星,产生的卫星数据量会非常巨大。创建与保持如此海量的数据备份与传统的普通数据备份差异较大。同时卫星数据存档文件是几十MB至几十GB大小的单个文件,在进行网络传输时耗时较长且会占用较多的网络带宽,容易导致数据不一致的情况发生。②存档数据的组成和保存形式多样,备份数据的管理复杂。遥感卫星数据的备份包含对卫星数据存档文件、元数据文件和浏览图文件的备份,备份过程需要根据各类数据的特点完成备份,同时保持各类数据之间的关联性。备份数据的管理是数据恢复的基础,卫星数据包含有诸如地理信息、云量、传感器等特有的属性,需要根据卫星数据的属性信息建立其相对应的编目信息,以便于对卫星数据进行管理。③备份数据的一致性保持较难,由于存档数据保存形式多样且单个存档文件数据量大,如何在备份时,既完成对一轨数据包含的多种数据的备份,又完成对数据之间关联性的备份,同时保证本地和异地数据的一致性,这是进行卫星数据异地备份的一个关键问题。

2 异地备份技术研究

2.1 异地备份站点的选择

所谓数据的异地备份,是指在两个相距一定距离的空间各自保存一份关键业务数据,并提供数据恢复手段的数据安全存储方式。两地之间的距离常根据工作条件、数据的重要性、一级行政区划等因素统筹考虑。一般来说,相距100km以上的两地,能够应付地区性的自然和人为灾害所造成的数据安全危机。

为实现在两地之间的数据备份,需要在两地之间建立网络连接。考虑到遥感卫星数据总量大,同时新获取的遥感卫星数据增长速度也较快,因此对两地的网络带宽有一定的要求。在确定备份所需网络带宽时,需要同时考虑历史数据与每日新增数据的数据量及其总的耗时要求、备份的时间窗口和网络利用率等要素。一个计算示例如下:本地已有历史数据200TB,考虑在1年之内完成历史数据从本地到异地的备份,在每日备份时间窗口10小时、网络带宽利用率在70%的情况下,需要约229Mb/s的带宽。按每日新增数据254GB,如需要在3小时传输完成所有新增数据到备份站点,在网络带宽利用率为70%的情况下,需要约276Mb/s的带宽。若要同时满足这两个指标,则需每日备份时间窗口为13小时,网络带宽需保证大于276Mb/s。

从示例可以看出,为满足历史数据与新增数据备份的耗时要求,有不同的网络带宽和备份时间窗口要求。总的网络带宽要求取其较大值;总的备份时间窗口则是两类数据备份时间窗口之和。

一般地,由于遥感卫星数据的接收管理部门通常都有多个卫星地面站,为减少备份的数据传输量,卫星数据异地备份可以优先考虑选择异地卫星地面站作为备份站点。

2.2 备份的创建方法

遥感卫星数据异地备份的过程,首先是遥感卫星数据异地备份的初始化,即完成对本地数据存储中的历史卫星数据到异地的备份;然后是备份的正常运行,主要是对新增卫星数据的备份。针对初始化步骤的不同,可以分为两种不同的备份方法,下面分别进行介绍。

(1)历史数据优先的备份方法

历史数据优先的方法是指在进行数据异地备份的初始化时,先将所有已有的数据备份到异地,再对备份期间新增的数据进行备份,重复此过程直到所有卫星数据都已完成备份;然后进入到备份的正常运行模式,完成后续新增数据的备份,这种创建方法的运行流程图如图1(a)所示,该运行模式的特点是运行过程简单,通过几次迭代过程就可以完成对已有数据的备份,迭代所需的次数取决于已有数据的数量与网络带宽的大小。但是这种运行模式有一个比较大的缺点,在异地备份初始化期间,新增数据无法得到及时备份且滞后的时间较长。图1(b)是备份过程的时序图,从图可以看出备份的过程主要有3个阶段,分别是历史数据的备份、迭代过程新增数据备份以及正常运行过程中新增数据的备份。

设定这样的一个异地备份环境,其数据与网络情况描述如下:①需要备份的历史数据200TB;②每日新增数据250GB;③本地与异地之间数据传输网络带宽为271Mbps,设定网络利用率为70%,每日可用的备份时间为13小时,即每日可备份数据量为1084GB。

在上述限定条件下,创建初始备份约需要5次迭代,各次迭代的所需备份的数据、时间以及迭代时新增数据的情况参见表1。通过迭代过程可以看出,第一次备份迭代所需的时间较长,在本例中,初始备份过程需要188.9天时间,这样在第一次迭代时产生的数据需要等待188.9天才能开始进行备份,并在约43.5天后完成备份。

图1 历史数据优先的备份方法示意图

表1 备份创建的迭代过程

考虑一个更通用的场景(以下各数据量的单位相同):需要备份的历史数据为D0,每日新增数据Da,每日可完成的备份数据量为da,则可以得出第n次迭代所需的时间Tn为:

迭代终止的条件是:

则初始备份创建所需的时间为:

(2)新增数据优先的备份方法

新增数据优先的备份方法是指,优先完成对新增卫星数据的备份,在备份时间窗口允许的前提下进行历史数据的备份。备份过程主要分为两个阶段,第一个阶段是初始备份的创建过程,在保证新增卫星数据备份的基础上,在剩余可用的备份时间窗口内完成对历史卫星数据的备份,直到所有的历史卫星数据都已完成备份。第二个阶段是备份的正常运行阶段,只需要完成对新增卫星数据的备份。备份过程的流程图如图2(a)所示,而图2(b)则显示了备份过程的时序图,从时序图可以看出备份创建的过程。

图2 新增数据优先备份过程示意图

在与上一节历史数据优先模式相同的限定条件下,除去新增数据,每日可用于传输历史数据流量的带宽容量为834GB,因此完成备份初始化所需的时间为245.6天。

考虑一个更通用的场景(以下各数据量的单位相同):现有需要备份的卫星数据量为D0,每日新增数据量Da,每日完成的备份数据量为da,则初始备份创建所需的时间为:

上述两种备份创建方法,历史数据优先的备份方法可以使历史数据优先得到保护,且运行模式较为简单;新增数据优先的备份方法交错进行历史数据与新增数据的备份,其运行方式更为复杂。

考虑到在采用分级存储时,根据卫星数据存储管理的策略,新增数据在产生后的一段时间内(通常是1周到1个月)会在各级存储中都留有备份,另外新增数据是热点数据,会被更多的读回到系统进行处理,这样也会形成新增数据在系统中的多份拷贝。相比较而言历史数据一般都存储在单一介质上,更需要得到保护。因此在历史数据的数据总量不太多的情况下,如可以在半年内完成对历史数据的备份,可以优先考虑历史数据优先的备份建立模式;其他情况则可优先使用新增数据优先的备份创建方法。

2.3 数据一致性检查

在基于网络环境进行备份时,数据是在广域网的环境下进行备份传输,容易出现数据不一致的情况。对此,可以通过备份过程中和备份完成后进行一致性检查来解决[8]。

备份过程中的处理是指在备份过程中,通过一系列处理方法和手段防止数据不一致的情况出现,主要包括基于任务的数据传输管理方法和大文件的数据检查机制。

基于任务的数据传输管理方法是指对数据传输过程进行细分,将一轨卫星数据的传输作为一个数据传输任务,对传输过程中的每个子步骤以子任务的方式进行管理,以确保数据传输过程的完整、正确[9]。具体的可以将数据传输任务分为卫星数据存档文件传输、元数据信息传输和浏览图文件传输3个子任务,并建立合适的子任务之间的通信机制。在每一个子任务正确完成之后,开始下一个子任务。只有在3个子任务都完成时,才将数据标记为备份成功。否则将备份任务标记为不成功,在备份不成功时可以进行数据重传,可以选择对失败的数据或所有数据进行重传。

大文件的数据检查是指在数据传输完成之后,立即对数据的正确性进行检查。由于卫星数据存档文件较大,且通过本地与异地之间的广域网环境之间进行传输,为防止由于网络传输等原因造成的数据损坏,需要建立大文件的数据检查。其方法是,传输前先在本地生成卫星数据存档文件的校验码,校验码可以采用CRC或MD5方式生成,生成的CRC或MD5校验码通过消息中间件以文本消息的形式传输到异地,卫星数据存档文件则通过FTP协议传输到异地,校验码与文件的传输控制通过基于任务的数据传输管理来完成。异地接收到卫星数据存档文件及校验码之后,再次计算卫星数据存档文件的校验码,同时与接收到的校验码进行比对,只有在两边数据计算的校验码相匹配时,才设定卫星数据存档文件传输成功,否则进行数据重传。

备份完成后的一致性检查主要用于对本地和异地已备份数据的一致性进行检查。具体是指在备份完成后,由用户发起对备份数据进行检查,检查发现不一致的数据,并对存在不一致的数据进行重传处理。主要包括单轨数据的一致性状态检查和基于数据库的一致性检查机制。单轨数据的一致性状态检查是指对完成异地备份的单轨遥感卫星数据所包含的各类数据信息进行一致性检查,以确保完成备份的遥感卫星数据处于正确的异地备份状态。检查的内容主要有:以校验码检查卫星数据存档文件是否一致、数据库中的元数据信息是否一致以及浏览图文件信息是否一致。对于检查后发现不一致的备份数据发起数据重传任务。

基于数据库的本地与异地数据一致性检查机制是指,以基于本地或异地的元数据数据库信息为基准,发起数据一致性检查。主要是比较在本地标识为已备份完成的数据信息是否在异地已有一个备份副本,和在异地已有备份副本的数据信息是否在本地已标识为已备份。通过建立这种事后的一致性检查机制可以确保本地所有数据都能按序备份到异地,而在异地已完成备份的数据能在本地有一个正确的标识。基于数据库的本地与异地数据同步检查机制独立于常规的数据备份任务,可以定期发起这种一致性检查。

2.4 数据恢复

异地备份的最终目的是为了便于在本地的数据遭到破坏时,能快速方便地将数据恢复到本地。因此,在构建异地备份系统时,还需要考虑备份数据恢复的问题。对于卫星数据异地备份而言,数据恢复的最小粒度为单轨数据。当发现数据损坏时,对卫星数据存档文件、编目信息和浏览图文件都要进行恢复。

为了对备份的数据进行有效利用和便于进行数据恢复,需要对备份数据进行管理。备份数据管理的基本要求是,完成对备份数据的存储管理,建立本地与异地数据编目信息,以实现两地之间的互检索。数据检索可以通过B/S技术实现[10-11]。根据卫星数据损坏的量的大小,数据恢复可以分为小批量恢复以及灾难恢复两个级别。小批量恢复是指日常运行中,发现本地数据有损坏时,由卫星数据标识信息,使用互检索功能检索到异地备份的数据,将数据通过网络恢复到本地。而灾难恢复是指本地保存的数据出现灾难性毁坏时的数据恢复策略。针对灾难恢复,主要有两个手段,其一是在本地数据毁坏,在网络环境和本地的运行环境没有完全损坏的前提下,可以通过网络访问异地的数据管理系统发起数据恢复任务。当在网络环境和本地的运行环境损坏的前提下,无法通过网络来进行数据恢复,可以将所需备份数据导出到移动介质或者移动硬盘,再将移动介质运输到目的地。

3 应用示例

一个采用本文所述方法的遥感卫星数据异地备份系统的组成框图如图3所示,系统包含了北京端(本地)与密云端(异地),两端都有进行异地备份所需的任务管理单元、数据传输单元、数据管理单元和一致性检测单元。其中任务管理单元完成数据传输、数据恢复和一致性检测的任务管理;数据传输单元用于完成在本地与异地之间的数据传输;数据管理单元用于完成本地与异地间数据的互检索和发起数据恢复任务;一致性检测单元用于完成本地与异地数据的一致性检测。

本示例的系统中,两站点间的网络带宽为622Mbps,网络带宽利用率约为60%,每日备份时间窗口约为6.6小时,在运行模式上,采用新增数据优先的运行模式,即优先对新增数据进行备份。目前该系统已稳定运行两年,完成了约200TB历史数据的备份,同时完成在此期间生成的约18TB新增数据的备份。

图3 遥感卫星数据异地备份系统示例框图

4 结束语

本文针对遥感卫星数据组成复杂、数据量大的特点,对遥感卫星数据异地备份过程中的备份站点选择、数据管理方法、备份创建方法、一致性保持和数据恢复的问题进行了分析,并对各问题提出了有效的技术方法予以解决。本文提出的方法在中国科学院遥感卫星地面站的遥感卫星数据异地备份系统中得到了有效的应用,取得了较好的效果,对于遥感卫星数据的异地备份具有较好的借鉴意义。

[1] GUO W,GONG J Y,JIANG W S,et al.OpenRS-cloud:A remote sensing image processing patform based on cloud computing environment[J].Science China Technological Sciences,2010,53(suppl.1):221-230.

[2] RAMAPRIYAN H K,PFISTER R,WEINSTEIN B.An overview of the EOS data distribution systems[J].Remote Sensing and Digital Image Processing,2011,11(3):167-201.

[3] DAUCSAVAGE J,KAMINSKI M,RAMACHANDRAN B,et al.ASTER and MODIS land data management at the land processes,and national snow and ice data centers[J].Remote Sensing and Digital Image Processing,2011,11(3):183-202.

[4] 汪超亮,李传荣,贾斌.新型遥感卫星数据目录服务系统的研制[J].遥感学报,2007,11(3):385-389.

[5] 陈勃,陈志军.海量遥感卫星数据存档方法的探讨[J].遥感信息,2006,21(5):43-46.

[6] 吕雪锋,程承旗,龚健雅,等.海量遥感数据存储管理技术综述[J].中国科学:科学技术,2011,41(12):1561-1573.

[7] 李斌斌,冯钟葵,唐梦辉,等.遥感数据异地归档方法研究与实现[J].遥感信息,2011,21(2):86-90.

[8] 程艳娜,李安,冯钟葵,等.遥感数据异地备份中数据一致性方法研究与实现[J].遥感信息,2011,26(1):37-40.

[9] 钱凯,冯钟葵,唐梦辉,等.遥感数据远程备份的任务管理[J].微计算机信息,2010,1(28):189-190.

[10] 冯旭祥,李安,陈俊.基于ArcSDE与WebGIS的卫星数据管理与检索系统研究与实现[J].遥感信息,2010,25(1):39-43.

[11] MARTINO S D,BIMONTE S,BERTOLOTTO M,et al.Spatial online analytical processing of geographic data through the google earth Interface[J].Geocomputation,Sustainability &Environmental Planning,348:163-182.

Remote Backup Technology of Remote Sensing Satellite Data

FENG Xu-xiang1,FENG Zhong-kui1,CHEN Jun1,TANG Meng-hui1,ZHANG Hong-qun1,FU Xiao-bo2
(1.Institute of Remote Sensing and Digital Earth,Chinese Academy of Sciences,Beijing100094;2.Training Center of Inner Mongolia Electric Power Group,Huhhot 010010)

This paper presents an approach for network-based remote backup of remote sensing satellite data.With full consideration of structure,composition,storage of remote sensing satellite data and characteristics of remote sensing satellite data backup,some problems such as selection of backup site location,backup data management,data consistency,data restore and backup creation methods are analyzed,and corresponding solutions are proposed.Then an example on the approach is introduced which demonstrates its effectiveness.

remote backup;backup consistency;backup management;backup recovery;backup site

10.3969/j.issn.1000-3177.2015.04.011

TP79

A

1000-3177(2015)140-0061-05

2014-05-27

2014-10-20

冯旭祥(1984—),男,工程师,主要从事遥感卫星数据预处理与备份相关研究。

E-mail:xxfeng@ceode.ac.cn

冯钟葵(1960—),男,研究员,主要研究方向为遥感数据处理、图像处理、海量数据储存与管理与遥感地面系统集成。

E-mail:zkfeng@ceode.ac.cn

猜你喜欢
网络带宽历史数据数据量
基于充电策略估算动力电池容量的方法
汽车电器(2025年1期)2025-02-03 00:00:00
基于设备PF性能曲线和设备历史数据实现CBM的一个应用模型探讨
智能制造(2021年4期)2021-11-04 08:54:36
基于故障历史数据和BP神经网络的接地选线方案研究
基于大数据量的初至层析成像算法优化
计算Lyapunov指数的模糊C均值聚类小数据量法
高刷新率不容易显示器需求与接口标准带宽
宽带信号采集与大数据量传输系统设计与研究
电子制作(2019年13期)2020-01-14 03:15:18
如何提升高带宽用户的感知度
科技传播(2017年14期)2017-08-22 02:39:36
基于Hadoop技术实现银行历史数据线上化研究
合理配置QoS改善校园网络环境