苏逸平/浙江省测绘资料档案馆
测绘地理信息是重要的国家信息资源,事关国家战略安全和核心利益[1]。随着测绘信息化的不断深入和智慧城市、地理国情监测等重大项目的全面展开,数字测绘资料档案馆在服务国计民生的过程中发挥着越来越重要的作用。遥感影像是指记录各种地物电磁波大小的胶片或照片,主要分为航空影像和卫星影像。遥感影像是测绘地理信息的重要基础数据,也是地理信息服务的重要载体[2]。近年来,随着测绘地理信息产业的高速发展、高分辨率卫星以及数码航摄、无人机航摄等对地观测技术的逐步应用,遥感影像的获取周期逐渐缩短、影像更新的频率日渐加快且分辨率越来越高,影像数据量更是呈几何级数迅速增加,影像数据规模已进入大数据时代[3]。在浙江,急速膨胀的数据量远远超出了该省测绘资料档案馆成果网服务器的存储空间,并给数据存储备份、查询检索等日常管理工作带来了严峻挑战。此外,馆藏数据安全也面临着巨大压力。为此,笔者探讨了海量遥感影像数据管理的技术支撑,包括元数据库、空间数据库和影像压缩;同时讨论了数据安全管理的若干要素,涉及存储载体、数据备份和计算机系统。
以浙江省测绘资料档案馆为例,省测绘资料档案馆的遥感影像数据包括航空影像数据和卫星影像数据,截至2018年底,馆藏遥感影像数据量达350TB,且将以每年50TB以上的速度增长。
其中航空影像包括模拟航片和数码航片,色彩包括黑白、真彩色和彩红,数据格式分ECW、TIFF、JPG三种;模拟航片分辨率可达1米以上,数码航片分辨率最高超过0.2米;黑白航片单片数据量约30MB,彩色航片单片数据量最高超过300MB。截至2018年底,馆藏航空影像数据总量约335TB。
卫星影像数据种类达20多种,包括KEYHOLE系列、TM、SPOT4、SPOT5、中巴、福卫、印度P5、P6、ALOS、资源卫星系列、高分系列、天绘系列、IK0NOS、QUICKBIRD、GEOEYE、WORLDVIEW系列等;类型包括全色影像、多光谱影像;数据格式包括TIFF、GeoTIFF、DAT、JPG等。不同传感器影像的分辨率存在差异,并且影像波段组合也各不相同。截至2018年底,馆藏卫星影像数据总量约15TB。
海量遥感影像数据的管理,主要采用构建元数据库及空间数据库的方式,以元数据库为影像目录、空间数据库为影像空间索引,并通过档案综合管理系统开展数据归档、查询检索以及分发统计等工作。
遥感影像元数据是描述遥感影像的空间位置、空间分辨率、空间参考、获取时间、影像质量等信息的属性数据,其内容主要包括遥感数据的基本信息、空间位置信息、姿态信息、数学基础、质量信息和管理信息等[4][5]。将元数据信息进行分类和规划,确定各元数据项的类型和长度,并按照统一的元数据结构建立相应的元数据库。元数据库包括航空影像元数据库和卫星影像元数据库。
空间数据库由影像索引图、影像快视图和背景电子底图构成。影像索引图分为影像中心点索引图和影像外接多边形索引图,主要通过GNSS卫星导航定位、影像匹配、影像纠正等定位技术进行获取。影像快视图是原始遥感影像的缩略图,主要是通过影像重采样技术降低原始影像分辨率的方式进行获取的。鉴于原始遥感影像数据量大、磁盘阵列价格昂贵、服务器存储空间有限、数据的管理难度不断攀升等多种因素,使用影像快视图构建空间数据库并进行在线存储是一种较为合理的方式。背景电子底图包括矢量电子地图和地形图图幅接合表,矢量电子地图包含各级行政区划、交通、水系、地名等要素数据,地形图图幅结合表包含各级比例尺标准分幅图幅结合表。
利用影像定位技术自动生成影像索引图,并进行影像快视图的动态镶嵌;通过叠加各类背景电子底图数据如各比例尺地形图结合图、行政区划要素数据、道路要素数据、水系要素数据、地名要素数据等,并结合影像元数据库,实现对遥感影像的快速查询检索,且浏览查询结果无需调用原始数据,这样大大提高了影像数据管理及分发统计的工作效率。
原始遥感影像数据量庞大,为了充分保障数据安全,需要进行多重数据备份,因此对数据存储空间的需求极大。为减少影像数据的存储空间、降低存储成本,对影像进行数据压缩十分必要。影像压缩指在基本不损害原始影像质量(像素、分辨率、色彩)的前提下,采用技术手段降低影像的数据量,以节省存储空间。影像压缩采用ERMapper公司的增强压缩小波(ECW)技术;数据压缩比方面,灰度影像采用10:1、彩色影像采用25:1,压缩后影像质量保持不变;数据量方面,灰度影像约为压缩前的1/7、彩色影像约为压缩前的1/25。
数据管理的首要任务是保障数据的安全,数据安全的保障要点包括存储载体、数据备份、计算机系统。
一是存储载体。数据存储离不开存储载体,因此数据安全的核心问题是如何确保存储载体的安全。《电子文件归档与管理规范》(GB/T18894—2002)推荐采用的存储载体按优先顺序依次为:只读光盘、一次写光盘、磁带、可擦写光盘、硬盘等;不允许用软磁盘作为归档文件长期保存的载体[6]。由于遥感影像数据量巨大,单个归档项目数据量动辄几TB甚至数十TB,综合考虑各类数字存储载体的容量、价格水平以及在实际工作中使用的便利程度等多种因素,建议存储载体以硬盘为主、磁带为辅。
存储载体的安全因素主要包括:(1)数据长期可读取。存储载体都需要相应的驱动器进行读取,一旦脱离驱动器,就不能检测到能否正确读取数据。以硬盘为例,目前主流硬盘均采用SATA接口,数据传输使用USB数据线,而早期的硬盘采用IDE接口,数据传输使用的PATA40针型数据线已被淘汰多年,使用IDE硬盘存储的数据面临着无法读取的境地。因此,必须定期进行读取测试并进行必要的软硬件升级。(2)存储期限。尽管理论上磁带、硬磁盘等存储载体在适宜的存放环境下可以长期存储数据,然而以硬磁盘为例,其大规模商用的历史不超过20年[7],并未经历过真正意义上的时间考验。因此必须定期检查存储载体,发现异常及时进行数据转存。(3)存储环境。存储载体容易遭受存储环境的影响,如磁场、阳光、高温、潮湿等,都有可能造成存储载体的损毁,因此为存储载体营造一个良好的存储环境显得尤为重要。要将载体存放至防磁柜,环境温度应控制在17℃—20℃、相对湿度应控制在35%—45%[8]。
二是数据备份。按照《信息安全技术信息系统灾难恢复规范》(GB/T 20988—2007)[9],采取本地和异地相结合的数据备份手段,充分保障数据的安全性,最大程度地降低病毒攻击、人为破坏或自然灾害等突发事件所造成的损失。由于数据量巨大,从性价比方面考虑,本地和异地均采用离线备份(冷备份)的方式。
三是计算机系统。数据的管理、存储、查询统计以及传输等离不开计算机系统的支撑,计算机系统的安全性是数据长期保存的重要因素[10]。计算机系统的安全因素主要包括:(1)软件环境。遥感影像的数据格式多种多样,数据读取依赖于特定的系统软件、支撑软件和应用软件。因此,软件环境必须与数据保持“兼容”。(2)病毒防护。数据流通过程中,应及时进行病毒查杀。(3)访问权限。通过设置权限、身份验证等方式,防止人为误操作。(4)网络控制。确保数据存储网络与互联网物理隔离,设置防火墙进行管理,及时扫描网络漏洞并安装系统补丁,防止非法入侵。
新时代,测绘地理信息档案管理部门要切实做好数据管理工作,充分发挥数据的基础性和战略性作用。此外,还要认识到适当控制数据来源对于数据管理工作也很重要。在深化供给侧结构性改革的背景下,影像数据采集乃至测绘地理信息数据生产应适度转变思路,以需求为指引,按照边际平衡规律合理利用资源,减少无效投入、避免重复投入,逐步减少对财政投入的依赖,为加快推进测绘地理信息事业转型升级、服务政府数字化转型及保障经济社会高质量发展提供数据支撑。