刘 威, 路来君, 徐 昊, 曹延波
(吉林大学 a. 综合信息矿产预测研究所, 长春 130026; b. 公共计算机教学与研究中心, 长春 130012; c. 地球科学学院, 长春 130026)
云计算是以分布式处理、 并行处理和网络计算等技术为基础的新兴数据处理技术[1]。目前, 云计算已经成为IT行业的一种发展趋势, 具有广泛的应用前景, 被应用于科学研究、 网络安全、 图形图像处理等众多领域[2]。笔者作为地学G4I(Geology Geography Geochemistry Geophysics Information)系统开发项目的成员, 一直致力于提升系统计算能力的研究工作。笔者探讨了采用云计算技术重新构建系统的可行性, 并设计实现了基于地学G4I系统的4层结构云计算网络服务子系统。
随着计算机信息技术的不断发展, Internet互联网络中集成了大量的数据、 软件和计算等方面的资源。而由于网络带宽、 网络服务、 软件平台和虚拟化技术等方面存在诸多问题, 导致网络中的各种资源的利用率很低。随着上述问题的缓解和解决, 网络用户正在逐渐接受基于Web远程计算模式的应用, 而云计算这种新的服务模型便应运而生。在云计算的模式下, 基于Web的各种复杂应用将变得更加有效, 大规模数据处理和计算将成为可能, 可更加灵活有效地组织管理和整合广域的、 异构的和自治的各种计算资源。
CloudCamp的创始人Reuven Cohen认为: 云计算是依托Web的服务, 用户可按需支付服务费用, 并且避免了传统软件在软硬件以及专业技能等方面的投资。
IBM公司Irving Wladawsky-Berger的观点: 云计算是将在软硬件资源方面进行大量投资并需要专业技术能力的应用, 通过Web服务的方式提供给最终用户[2]。
维基百科总结为: 云计算是一种通过互联网服务将动态的虚拟资源提供给用户的计算模式, 并且用户不必关心如何管理支持云计算的基础设施。
结合上述定义, 归纳云计算具有以下特点: 多层面的虚拟化、 分布式的存储方式、 并行的编程模式、 灵活的资源扩展模式和有偿服务。基于云计算的特点, 笔者对云计算提出如下定义: 云计算是把网络环境中大规模低成本的计算机单元组成集群, 采用有偿的方式, 提供一种或多种形式的资源池, 能同时为多种应用提供计算服务的IT技术。
目前, 全球范围内已有很多成熟的云计算系统。Amazon是最早提供远程云计算平台服务的公司, 云计算平台称为弹性计算云(EC2: Elastic Compute Cloud)。用户租用的是虚拟的计算能力, 简化了计费方式。IBM推出了蓝云计算平台, 该平台是一种虚拟化的云计算软件平台, 具有即买即用的特点, 并以自动化的方式完成自我管理和自我修复功能, 采用大型分布式服务器池的工作模式均衡来自全球各地的应用, 保证经过数据中心的各种计算在类似互联网的环境下运行[3-5]。
此外, Google、 Microsoft、 Cisco、 Intel、 HP和Apple等公司也在构建自己的云计算平台, 云计算服务提供商队伍不断壮大。我国企业也在积极投身于云计算的产业之中, 希望在云计算领域占有一席之地[6,7]。
由于各种地质体成矿作用具有多源性、 复杂性、 周期性和异构性等特点, 使地学空间数据的信息获取、 信息处理和信息分析等过程形成了庞大的理论及技术体系, 为得到准确有效的分析结果, 需要在原始地学数据与最终成果之间建立一个支撑平台。由于地学空间数据的组成与结构复杂, 类型不一, 规模庞大, 加之地学数据的来源和采集方式众多, 导致地学空间数据库建设过程极为繁杂。
地学G4I系统是在开放式的GIS多平台集成条件下, 以地质学、 地理学、 地球化学和地球物理学等4学科实测数据按各自需求建立4G空间数据库, 以4G地学数据集成和数据挖掘分析为核心, 以提供矿产资源预测服务为目标的地学数据处理系统。现将云计算技术与地学G4I系统整合, 使之成为系统的集成部分, 定义新系统为G4ICCS(Geology Geography Geochemistry Geophysics Information Cloud Computing System)。
地学G4ICCS系统总体结构设计采用模块化的设计理念, 各模块之间按逻辑关系接口进行连接[8]。地学G4ICCS系统主要由数据管理、 空间分析、 地学建模、 成果表达和云计算服务五大子系统组成, 总体结构如图1所示。
图1 G4ICCS系统总体结构图
云计算网络服务接口子系统是结合云计算的关键技术与特点设计开发的, 其主要功能是: 借助云计算的虚拟化技术和分布式存储技术, 在互联网络环境中构建“地学数据网络资源集群”, 各种用户可通过连接到网络的客户终端发出服务需求, 通过分布式网络向资源集群请求所需数据和计算服务, 数据和计算结果通过分布式网络提供给终端用户。
云计算网络服务接口子系统分为数据服务层、 核心控制层、 网络调度层和终端接口层。数据服务层由互联网络中提供存储和计算应用服务的各类计算机构成, 形成G4ICCS的虚拟地学数据资源集群。集群中的计算机负责数据的分布式计算、 存储和管理, 按照服务代理层的数据指令, 将计算结果返回终端用户。核心控制层是G4ICCS中云计算功能的核心层, 具有用户访问控制、 需求检测、 加载程序、 服务配置, 权限控制, 资源控制和发送数据指令等功能。网络调度层负责云服务网络的负载均衡。在云计算过程中, 终端用户数据和计算需求具有复杂多样的特点[9,10]。G4ICCS可以按照负载均衡调度策略, 并根据用户需求和云系统当前状态灵活地调度和分配资源。终端接口层是G4ICCS的最基础部分, 终端用户可以通过PC(Personal Computer)、 笔记本、 MID(Mobile Internet Devices)等设备连接到互联网。
综上所述, G4ICCS在原G4I系统基础上采用云计算技术构建了云计算网络服务和应用平台, 向网络终端用户提供了丰富、 高效、 可扩展的数据处理方法与算法, 并支持数据服务、 程序编译和调试等交互式服务, 将极大提高相关领域科研工作者的工作效率。
基于上述结构的G4ICCS系统, 在实现过程中, 需要解决以下关键技术。
1) 虚拟服务器。G4ICCS系统的云计算功能底层架构以虚拟服务器技术为基础。使用服务器虚拟化软件可轻松完成抽象硬件, 分配资源、 管理和调度, 同时实现了多个虚拟主机之间, 以及虚拟主机和宿主操作系统之间的隔离等功能。
2) 地学数据存储。如果要求G4ICCS系统的云计算子系统具有为大量用户提供并行服务的能力, 系统必须采用分布式的数据存储技术解决云计算过程中数据的高吞吐率和高传输率的问题。目前, 谷歌公司的GFS(Google File System)技术和HDFS(Hadoop Distributed File System)技术已经成为数据存储技术的主要标准。
3) 地质空间数据管理技术。G4ICCS系统云计算子系统如何对多源异构的海量地学数据完成存储, 如何提高海量数据的更新速率和海量数据随机读写速率是该系统要解决的关键任务。该系统的数据管理系统采用谷歌公司的BigTable技术。
4) 分布式编程与计算。为使系统用户享受云计算的优良服务, 系统设计了特定用户的自定义接口。解决用户和编程人员与后台任务调度、 并行计算之间透明关系的方法, 也是以建立简单编程模式实现的。
矿产资源预测过程是一种复杂地学数据分析、 处理与地质解释的过程, G4ICCS系统是一种复杂的跨学科海量地学数据处理与分布式并行计算的信息平台, 其最终输出结果是为多学科、 多尺度、 多精度矿产资源预测提供有效评价数据, 数据的形式有文字、 图形、 图像及各种成果表达方式。在应用云计算技术前, 该类系统由于受硬件及数据处理能力的限制, 经常无法满足海量数据的高效计算与处理; 同时由于地学空间数据的复杂计算模型经常对硬件计算能力提出更高的要求, 使一般客户难以执行大型地学数据计算。采用云计算技术后, 上述问题迎刃而解, 极大地缩短了计算过程的空间与时间。
目前国内外对云计算在地学数据处理领域的应用还处于起步阶段, 基于云计算技术的地理信息系统开发和实现基本上是个空白, 笔者将云计算具体应用在地学数据处理系统体系结构构建中, 但对系统实现需要的技术支持还有待于进一步研究。
参考文献:
[1]陈康, 郑纬民. 云计算: 系统实例与研究现状 [J]. 软件学报, 2009, 20(5): 1337-1348.
CHEN Kang, ZHENG Wei-min. Cloud Computing: System Instances and Current Research [J]. Journal of Software, 2009, 20(5): 1337-1348.
[2]李刚健. 基于虚拟化技术的云计算平台架构研究 [J]. 吉林建筑工程学院学报, 2011, 28(1): 79-81.
LI Gang-jian. Research on Cloud Computing Based on Virtualization Technology [J]. Journal of Jilin Institute of Architecture & Civil Engineering, 2011, 28(1): 79-81.
[3]陈维崧, 陈庆秋. 基于云计算的GIS研究 [J]. 测绘与空间地理信息, 2011, 34(1): 157-161.
CHEN Wei-song, CHEN Qing-qiu. A Research of GIS Base on Cloud Computing [J]. Geomatics & Spatial Information Technology, 2011, 34(1): 157-161.
[4]韩冰, 路来君. 地学G4I系统中空间元数据的设计技术 [J]. 世界地质, 2011, 30(2): 307-312.
HAN Bing, LU Lai-jun. Design Technology of Spatial Metadata in Geological G4I System[J]. Global Geology, 2011, 30(2): 307-312.
[5]滕菲, 路来君, 孟庆龙. 地学G4I系统的开发研究 [J]. 吉林地质, 2006, 25(4): 50-55.
TENG Fei, LU Lai-jun, MENG Qing-long. A Study on the Development of the Geological G4I System [J]. Jilin Geology, 2006, 25(4): 50-55.
[6]王鹏, 董静宜. 一种云计算框架的实现方法研究 [J]. 计算机工程与科学, 2009, 31(A1): 11-13.
WANG Peng, DONG Jing-yi. Study of Realized Method on a Cloud Computer Architecture [J]. Computer Engineering & Science, 2009, 31(A1): 11-13.
[7]李嘉虓, 陈华根. 基于云计算的地学云系统设计 [J]. 计算机工程与科学, 2011, 33(6): 108-113.
LI Jia-xiao, CHEN Hua-gen. Design of a Geological Cloud System Based on Cloud Computing [J]. Computer Engineering & Science, 2011, 33(6): 108-113.
[8]王磊, 陈刚, 陆忠华. 基于云计算的高效科学计算应用软件框架 [J]. 华中科技大学学报: 自然科学版, 2011, 39(1): 166-169, 183.
WANG Lei, CHEN Gang, LU Zhong-hua. Cloud-Based Software Framework for Efficient Scientific Computing [J]. Journal of Huazhong University of Science and Technology: Natural Science Edition, 2011, 39(1): 166-169,183.
[9]史佩昌, 王怀民, 蒋杰. 面向云计算的网络化平台研究与实现 [J]. 计算机工程与科学, 2009, 31(z1): 249-252.
SHI Pei-chang, WANG Huai-min, JIANG Jie. Research and Implementation of High Performance Networking Platform over Cloud Computing [J]. Computer Engineering & Science, 2009, 31(z1): 249-252.
[10]李玲, 付园, 麻晓珍, 等. 云存储系统中数据冗余策略优化问题 [J]. 吉林大学学报: 信息科学版, 2013, 31(1): 1-7.
LI Ling, FU Yuan, MA Xiao-zhen, et al. Research of Data Redundancy Policy Optimization Problem in Cloud Storage System [J]. Journal of Jilin University: Information Science Edition, 2013, 31(1): 1-7.