孔昭煜,李晨阳,范 璘
(1.中国地质调查局发展研究中心,北京 100037;2.全国地质资料馆,北京 100037)
大数据时代地质资料数字资源管理保障体系研究
孔昭煜1,2,李晨阳1,2,范 璘1,2
(1.中国地质调查局发展研究中心,北京 100037;2.全国地质资料馆,北京 100037)
大数据时代下的地质资料数字资源具有数据量大、数据类型多、数据价值高和高效利用等特点,国家地质资料数据中心的建设使得公众可以更加便利的获取和利用地质资料成果数据,同时也为国家经济建设提供了基础信息数字资源保障。本文对地质资料数字资源管理保障体系建设进行了研究,分析介绍了数字资源的基本情况,分别从网络保障、数据高效利用和长期保管技术等方面对数字资源的保障、数据安全体系建设等进行探讨与分析。数字资源管理保障体系可以有效地推进地质资料管理保障工作信息化建设。
地质资料;大数据;数字资源;保障体系
地质资料的数字资源主体是地质调查工作形成的各种资料数据,这些数据是地质工作者辛勤劳动的成果展现,是地理、地质环境变化的见证与记录,也是重要的社会和国家基础保障信息资源,蕴藏着无法估量的社会价值和经济价值[1-2]。近年来,大数据、云计算技术作为新兴计算机信息技术手段受到社会高度关注,对传统的生产、生活方式带来了巨大的冲击,地质资料数据服务管理工作也不例外。大数据、云计算两者相辅相成密不可分,大数据必须依靠云计算的分布式架构和虚拟化技术得以实现,云计算依靠大数据的不断增长的数据量和数据潜在的社会经济价值,充分发挥云计算的建设意义和价值体现。新时期二者的发展也广泛影响着传统地质成果资料管理保障模式,推动地质资料工作的核心业务和管理模式全面向数字化、信息化进行转变[3-5],因此对于地质资料数字资源的管理保障体系的研究势在必行。
以全国地质资料馆为例,经过十余年的努力,目前全国地质资料馆已全面完成馆藏纸介质的地质调查成果资料图文数字化,实现了以数字化为主、纸电结合的存储管理模式,因此建设先进、高效、稳定、可靠的数字资源管理保障体系是全国地质资料馆在当下的工作重心。
本文通过对全国地质资料馆地质资料数字资源管理保障体系建设的研究,旨在对相关行业及省级地质资料馆的数字资源管理保障工作起到指导示范作用。借助先进的信息技术建立完备的网络保障体系,有效提升数据资源传输和使用网络环境的基本安全,完备的数据支撑体系建立,实现了对数字资源的电子数据提供安全、有效和稳定存储空间,严格的数据安全保障体系实现对数字资源的信息安全提供有效的安全防护。同时通过建立规范、标准的地质资料数字资源管理保障体系,有利于促进标准化管理体系建设,实现促进地质资料工作向新时代下的数字化转型,也切实推进地质资料全面信息化建设工作。
大数据时代,大量数据积累和信息爆炸使得人类进入了一个信息化高度发达的社会,全国地质资料馆馆藏近14万档地质资料数字资源作为名副其实的“大数据”,同样具有通常人们所认为的“4V”特点[4]。
1)Volume(大量)。信息化技术手段的不断完善,使得各种计算机设备、物联网、云计算和云存储技术记录的数据涵盖面逐步增加,产生了大量的数据。截至2016年12月31日,全国地质资料馆藏资料已达139 830档,占用存储空间149 TB,数据总量为320 TB,包括生产数据、原始数据及其它交换备份数据。
2)Velocity(高速)。大数据发展的趋势是将数据挖掘工作提至前一个工作环节中,对地质资料成果数据进行实时数据处理,完成的成品数据为服务应用提供及时有效的数字资源保障,因此在数据处理过程中必须实现数据生产快速和数据处理快速,同时越来越多的数据挖掘趋于前端化,需提前感知预测并直接提供服务对象所需要的个性化服务。
3)Variety(多样)。大数据时代下的数据格式越来越多样化,涵盖了文本、音频、图片、视频等不同类型的数据。目前,全国地质资料馆的数字资源主要包括早期纸介质地质资料数字化后的电子数据,以及近年来通过信息化手段制作的电子地质调查成果资料,这些电子数据从类型划分包括文档数据、数据表格和数据库文件,从空间数据类型分为矢量数据和栅格数据等,同时这些数据专业分类也很广,包括区域调查、矿产勘查、海洋地质调查、物化遥勘查、水工环勘查、地质科学研究、技术方法研究等相关专业。
4)Value(价值)。海量的地质调查成果数据是投入了数以万计的人力和财力完成的,其包含的社会价值和经济价值无法估量,因此需要对这些珍贵的馆藏地质调查成果数字资源开展安全、有效地存放与保管,确保数字资源本身的安全、长期可用和高效利用等[4-7]。
全国地质资料馆作为国家级地质资料馆藏机构,除需要保证数据本身的安全外,还需要满足资料数据的接收、查验、整理、加工和服务应用等基本业务,因此建设一套管理保障体系非常必要。建设内部物理隔离符合保密要求的工作网络,可以保障工作业务流和数据复制所需的基础网络;建设核心业务存储体系,可以保障馆藏的原始汇交数据、服务应用的馆藏成品数据以及相应的加工过程数据和备份数据所需的存放空间;建设核心业务数据备份体系,可以保障在应急和重大灾害发生时重要数据的安全、有效可用;建设用户访问控制体系,利用技术手段确保信息数据的安全,可以保障馆藏地质资料数据信息的安全,有效保障国家重要信息不被泄露[8-10]。
2.1 管理保障体系建设原则
地质资料核心业务环节包括资料的接收、管理、加工和服务等,如果各部门独立建设相应的数字资源保障体系,势必存在重复建设和业务流衔接不顺等问题,因此地质资料数字资源管理保障体系的建设既需满足高效、安全、稳定、绿色的管理,进行统一建设、统一运行,又能根据业务工作不同而相对独立运行[9]。管理保障体系在建设过程中,严格开展顶层架构设计,须遵循以下几点原则:①借助信息技术手段,利用大数据、云计算技术打造高效管理、高效利用、高效服务为基础的数据资源管理保障体系;②利用网络技术和存储技术打造安全的数据实体保障体系;③存储和备份技术相结合,详细规划备份策略,构建高效、可靠稳定的数据备份安全保障体系;④严格根据计算机信息安全的有关规定,完善相关策略和管理机制,开展数据信息安全的防护体系建设。
2.2 管理保障体系组成
地质资料数字资源的业务管理工作包括接收、整理和服务等,进一步可细分为汇交、接收、验收、入库、保管、加工、借阅和在线服务支撑等流程,这些流程之间环环相扣、承上启下,由不同的职能部门承担相应的业务工作[8]。针对以上业务工作,地质资料数字资源管理保障体系可有以下部分组成。
1)网络保障体系。网络保障体系是地质资料数字资源管理的基础条件,由于馆藏地质调查成果资料数据中含有大量涉密信息,因此该网络体系的建设需要严格依据涉密网络标准进行建设,即该网络既需要满足管理业务有序开展,又要保障信息数据的安全可控。
2)数据支撑保障体系。数据支撑保障体系是地质资料数字资源管理的核心条件,馆藏的原始数据、成品数据和加工过程的临时数据等全部由该体系提供支撑和保障。
3)数据安全保障体系。数据安全保障体系不仅需要保障地质资料数字资源的存放安全,也要保障馆藏地质资料数据的信息安全,因此需要建立一套有效的数据备份体系和信息安全防护体系。地质资料数字资源管理保障体系架构图见图1。
图1 地质资料数字资源管理保障体系架构图
2.3 管理保障体系建设意义
地质资料数字资源在具有资料属性外,还具有极高的历史档案性,因此保管并利用好地质资料数字资源,是对数以千万的地质工作者的智慧结晶发扬和传承,也是对国家基础建设和社会发展提供有力保障。建设一套先进、高效、稳定的地质资料数字资源管理保障体系,是现阶段地质资料工作的核心任务之一,也是馆藏机构所面临的挑战与发展机遇。利用大数据和云计算技术,推动传统的地质资料业务流程向信息化转变,可对现有地质资料数字资源进行充分整合、挖掘和进一步开发利用。同时在历史档案管理的层面,利用信息化技术手段切实保障地质资料数字资源的安全有效和电子数据的长久保管;在推进地质资料社会化服务层面,通过大数据分析手段结合地质资料数字资源的规范化、标准化建设,可进一步提高地质资料数字资源的综合利用及社会化服务保证能力。
网络技术的高速发展,彻底改变了传统的办公与管理模式。由于地质资料的涉密属性,各级馆藏机构应根据地质资料数字资源的特点,将网络建设为内、外网分开的网络体系。内部工作网络为物理隔离,并参照涉密网络进行建设管理,主要实现地质资料数字资源的接收、管理和加工等主要业务工作;外部网络用于互联网门户发布服务支撑,实现地质资料数字资源的传播、共享、查询和在线编辑等功能[9]。
以全国地质资料馆为例,其内部网络须满足数据的生产、加工和保存使用,并建立为三层网络结构,第一层为主干网络,实现各部门之间的链路联通,同时在主干网络环境中完成建立域树的主域框架、核心存储、核心备份、统一用户身份管理和计算机安全等系统,为部门级子域提供必备的基础支撑环境;第二层为各部门工作服务支撑及相应设备使用,主要连接各部门级子域控制器、存储设备和服务器设备;第三层为日常客户端对数据加工处理使用,同时该网络主干链路须满足保密要求,因此利用光纤链路来提供基本支撑,房间内需专人管理利用屏蔽线提供客户端的网络链路保障。
截至2017年1月底,全国地质资料馆馆藏数据单套已经达到160.9 TB,全年单套数据的增长量超过54 TB,随着新技术的不断更新完善,汇交至全国地质资料馆的地质资料数字资源占用空间不断大幅增长,因此急需相应规模的数据存储系统来存放数据。由于地质调查成果记录的内容既是自然科学的成果记录,也是历史档案的真是记录,更是文艺表现的一种形式,其特点与其他行业完全不同,同时地质资料数字资源的组成是各类非结构化的数据,其数据的格式、类型、文件的大小以及文件的结构等电子数据是非统一的。如何提高存储系统的使用效率,保障高效、便捷的获取地质资料数字资源,那么可以通过合理的文件层级与文件系统对存储设备进行划分和管理,同时结合闪盘结构的存储技术,对现有的存储系统进行闪盘与传统硬盘结合分层使用,频繁读取的数据迁移至闪盘使用,读取频率低的数据存放在传统硬盘里,借助成熟的信息技术提高不同层级的用户高效便捷获取到地质调查工作的成果,实现地质资料的社会价值。
于此同时在建设支撑保障体系中,需要建设一套相对集中的存储系统可有效充分利用存储系统,避免重复采购,降低多套设备的运行维护费用。由于地质资料数字资源的的数据价值极高,因此在支撑保障体系中必须建立相应备份系统,通过详实制定的备份策略实现更加便捷高效的数据备份,多样化的保障数字资源的安全有效。在制定备份计划是,应做到详细和精准以最短的时间完成完整的备份,缩短备份周期有效提升备份成果数据的准确和完整性,同时建立差异化备份机制建设在备份周期内的数据变量,截至目前用于保障数据支撑安全备份计划已经达到56项任务,总计备份数据量达到310 TB备份,周期为1个月,使用近120盘磁带完成,存储系统和备份系统相结合充分保障了地质资料数据支撑的必备基础,实现数据具有极高的完整性、安全性和有效性等[11-13]。
在建设数据支撑保障系统的存储系统中,经过数年的是实际测试和使用,建议采用分布式NAS(网络附属存储)存储系统,该存储系统具有控制单元无容量和节点限制的特点,便于后期的扩容及维护工作。同时,由于存储设备投入经费较大,无法一次性满足设计需求,因此需要根据需求进行逐年扩容。分批采购存储设备具有以下优势:首先电子设备存在老化情况,分批采购有利于保持设备的综合性能稳定;其次如果按前期设计一次采购到位,存储空间空闲,造成无形的浪费。
地质资料数据安全保障体系首先要保障网络安全,在网络环境中保障数据信息流转的安全,其次为利用备份技术保障数据存放安全,最后需要对整体数据的信息安全提供相应保障体系[9,14-18]。
5.1 数据安全保障措施
全国地质资料馆馆藏资料数字资源分为原始数据、成品数据、加工数据、备份数据和公共服务数据几部分。根据数据内容、重要性、读取的频率和管理的便捷程度,将数据存储位置划分为三类:第一类为相对重要的原始数据和成品数据,存放在容量较大、稳定性高的专业存储设备中;第二类为日常工作处理的加工数据,存放在小型专业存储设备中;第三类为备份数据和公共服务数据,存放在服务器自有存储设备中。
根据数据的占用量,以备份速度为参考,详细制定完整的备份策略,全局备份和差异化增量备份相结合,有效保障数字资源的安全。全局备份由于数据量大,完成一次备份时间周期长,因此以季度为单位开展备份工作,与差异化增量备份相结合,对全局备份期间的增量进行补偿备份,确保整体数据的安全有效。差异化备份是以完成的全局备份为参照,对全局备份周期内的数据变化进行比对和补充备份,确保在全局备份周期内进行的数据获取、处理和应用的过程是安全可靠的,实现全覆盖的数据安全保障。
5.2 信息安全保障措施
保障地质资料数字资源信息安全,首先需提高管理人员保密技术水平和保密工作意识,自身技术水平提高可有效阻止外来技术入侵,切实保护国家秘密不被泄露。
依据数据的重要程度,在加工区域参照涉密办公环境进行建设与管理,并制定相应的保密工作制度,张贴在办公区域明显位置,起到宣传警示作用,提高全员保密意识,并参照制度中的相应内容进行严格管理与控制,管理涉密办公环境外来人员的进出,严控存有涉密信息的移动存储设备的使用范围;严控涉密计算机插入非指定移动存储设备,做到涉密移动设备只在涉密计算机上使用,非涉密移动设备只在非涉密计算机上使用;严格区分涉密网络与非涉密网络的工作区域,有效防止涉密计算机设备非法接入互联网的可能性。
不定期组织计算机涉密自查工作,对所有进行内部数据加工的计算机开展移动存储设备的检查、木马病毒的检查、操作系统安全漏洞的检查等工作;利用相应软件技术严格控制所有接入内部工作网络的计算机,做到未经授权用户无法使用任何移动存储设备接入计算机,无法使用任何刻录设备进行光盘的写入;加强工作环境的管理与划分,做到工作区域无任何互联网连接端口,互联网区域无任何内部网络端口;与数据加工的人员签订保密承诺书,加强保密工作的培训,做到从思想上提高保密意识,从行动上杜绝泄密事件发生。
在提供地质资料数字资源服务时,确保数据处理的过程仅在涉密网络环境中进行,如需开展文件和图件打印需建立独立的文印机房。日常工作中产生的废弃文件、图件、光盘等含有工作内容的载体,进行严格控制,集中统一销毁并有相应的记录。个人持有的涉密文件信息资料全部存放在涉密服务器中,不得进行单独存放。信息安全重于泰山,做好地质资料数字资源的信息安全管理和保障,是资料工作的重要责任,保护了国家的重要秘密。
大数据时代下的地质资料数字资源管理保障体系,促进了数字地质成果资料的规范化采集和信息化管理,有力的支撑了国家地质资料数据中心数据发布应用,推动了地质资料工作的全流程信息化转型,是新时代下经济社会信息化发展的需要。同时对地质资料管理机构来说,既是发展机遇,又是严峻的挑战。地质资料工作者应当迎接挑战,抓住机遇,通过大数据技术手段,深层次挖掘地质资料数字资源中蕴含的丰富的地学知识,满足国家经济建设日益增长的不同需求,深度挖掘地质调查成果资料中涵盖的知识价值、经济价值和历史档案价值,在国家经济建设中充分发挥其基础信息数字资源的服务支撑保障能力[17-18]。
[1] 颜世强,连健,丁克勇,等.地质资料内涵与特征分析[J].中国矿业,2013,22(7):45-48.
[2] 王黔驹,颜世强,丁克勇,等.推进地质资料信息服务集群化产业化的初步思想与构想[J].中国矿业,2011,20(12):20-23.
[3] 黄少芳,刘晓鸿.地质大数据应用与地质信息化发展的思考[J].中国矿业,2016,11(8):166-170.
[4] 何振,杨文,唐思慧,等.大数据时代档案学教育的新常态与实践拓展[J].人力资源建设,2016(1):117-123.
[5] 黄淑琴.大数据视域下的档案信息资源整合刍议[J].档案,2011(19):60-62.
[6] 尚武.完善地质资料档案社会化服务体系的思考[J].中国矿业,2006,15(5):22-24.
[7] 齐钒宇,吴轩,商云涛,等.地质资料属性及其社会化服务价值研究[J].中国矿业,2016,25(S2):85-88
[8] 连建,颜世强,王黔驹.地质资料信息化建设趋势、问题及对策[J].中国国土资源经济,2016(1):28-32.
[9] 孔昭煜,商云涛,高学正,等.国家地质资料数据中心构建研究[J].中国矿业,2016,25(S2):92-96.
[10] 颜世强,张惠,王黔驹等.地质资料服务产品基本模式构建[J].中国矿业,2015,24(10):164-167.
[11] 李晓明.数字存档技术—数字资源长期保存的可靠途径[J].数字与缩微影像,2016(3):8-10.
[12] 陶水龙.档案数字资源云备份策略的分析与研究 [J].档案学通讯,2012(4):12-16.
[13] 加小双,安小米.数字档案资源建设中的参与式图景[J].档案学研究,2016(2):83-88.
[14] 徐拥军,张斌.我国科技档案管理体制机制的现存问题[J].档案学研究,2016(2):14-21.
[15] 皮序宇.新形势下做好档案保密工作的思考[J].档案工作,2016(7):86-87.
[16] 聂菊梅.新形势下档案保密工作存在的问题及对策[J].城建档案,2015(11):61-62.
[17] 黄少芳,刘晓鸿.大数据时代地质资料信息化发展探讨[J].中国国土资源经济,2013(10):67-69.
[18] 高学正,孔昭煜,齐钒宇,等.全国地质资料馆馆藏资料现状及服务趋势研究[J].中国矿业,2016,25(S2):73-76.
Research on digital resources management and security system of geological data in big data
KONG Zhaoyu1,2,LI Chenyang1,2,FAN Lin1,2
(1.Development and Research Center,China Geological Survey,Beijing 100037,China;2.National Geological Archives of China,Beijing 100037,China)
The construction of the national geological data center makes it more convenient for the public to obtain and use the data of geological data.It can be used as the national data resources for the country,and it can be used as the national data resources for large-scale and large-scale data resources.Economic construction to provide basic information on digital resources protection.This paper studies the construction of the digital resources management and assurance system of geological data,analyzes the basic situation of digital resources,and discusses the protection of digital resources from the aspects of network layer,efficient use of data and long-term storage technology,and discusses the construction of data security system.Digital resources management and security system can effectively promote the geological information management and protection of information technology.
geological data;big data;digital resource;security system
2017-02-15
中国地质调查局项目“全国地质资料汇聚与数据整理”资助(编号:121201004000150018)
孔昭煜(1981-),男,工程师,主要从地质资料信息化基础设施建设与研究工作,E-mail:Kzhaoyu@mail.cgs.gov.cn。
C931.2
A
1004-4051(2017)04-0073-05