沈凤娇,余晓敏
(1.湖北省基础地理信息中心,湖北 武汉 430070)
习近平总书记在党的十九大报告中提出,推动互联网、大数据、人工智能和实体经济深度融合,建设数字中国、智慧社会,城市是人口聚集、社会发展最活跃的地区,因此智慧城市建设是建设智慧社会的重要组成部分,而时空大数据平台是智慧城市建设与运行的基础支撑[1]。时空大数据平台的构成包含了时空大数据和云平台,其中云平台通过云计算等技术,为时空大数据的存储、管理、可视化、应用等提供基础支撑。
时空大数据平台是基础时空数据、公共专题数据、物联网实时感知数据、互联网在线抓取数据根据本地特色扩展数据及其获取、感知、存储、处理、共享、集成、挖掘分析、泛在服务的技术系统,连同云计算环境、政策、标准、机制等支撑环境,以及时空基准共同组成的时空基础设施,其结构如图1所示[1]。
图1 时空大数据平台构成
空间云计算是时空大数据平台建设最基础的支撑。通过云计算技术,一方面能实现资源共享,通过资源管理实现计算资源的统一管理,达到资源共享、规模效应;另一方面,还能基于智能化、自动化的资源调度,实现资源的按需调取和负载均衡[2]。
空间云计算支撑一方面依托空间数据云存储,使用多个位于虚拟机的计算节点,构建高性能并行计算框架,可实现子任务级的快速处理;另一方面,提供适合空间数据的多粒度并行计算模型与插件框架,为上层服务开发算法插件提供基础支撑。如图2所示为空间云计算支撑的原理图[3]。
图2 空间云计算支撑原理图
空间云计算支撑的业务流程如图3所示。
图3 空间云计算支撑业务流程图
空间云计算支撑提供子任务级批处理计算服务与算法插件框架,主要包括并行任务调度,空间计算插件框架与集群状态监控等功能模块,如图4所示。
图4 空间云计算支撑功能模块组成
并行任务调度模块用于接收任务、分解任务,为任务分配计算资源,并将任务信息传递给计算插件框架,由计算插件框架调用具体算法插件实施处理过程。
空间计算插件框架提供包含插件执行、管理、注册、并行计算接口、影像处理链的基础框架,为插件算法编写提供支持。
集群状态监控模板提供任务与节点状态监控功能。
借助成熟的开源分布式计算平台Hadoop生态圈和Tensorflow深度学习框架来构建时空信息云平台的云计算平台。主要包括3方面内容:一是通过Apache Ambari web管理平台hadoop生态圈,增加accumulo、HBASE分布式索引数据库,打通空间大数据与HDFS、HBase等列存储结构壁垒——快速地跨多台机器处理大型数据集合,实现海量数据索引的快速检索存储;二是增加Storm流式处理框架,基于内存计算,扩展云计算平台在实时数据接入的时空数据的处理能力;三是引入Tensorflow分布式深度学习框架,用于支持神经网络密集型计算应用开发,并结合Kubernetes和Docker容器技术,注册Tensorflow服务到Kubernetes框架的POD单元,实现计算节点的弹性伸缩,实现容器的集群资源管理、容器部署弹性伸缩,容器运行的状态管控,并支持GPU集群深度学习计算应用。如图5所示为本时空大数据平台的云计算基础平台架构实现。
图5 云计算基础平台架构
底层为基础设施,为云计算平台提供基础硬件服务资源。中间层为云计算平台的基础构成,主要包括四部分:即①Hadoop分布式计算生态圈,主要包括了HDFS分布式文件系统、Yarn资源管理器、MapReduce分布式计算框架、Spark计算框架、Hive数据仓库、Zookeeper分布式协调服务、Kafka消息系统、Ambari安装部署配置管理工具等;②Storm分布式流计算框架;③Tensorflow分布式深度学习计算框架;④Kubernetes集群调度管理框架。
云计算应用服务指的是基于云计算基础平台的接口进行应用服务开发,如离线块数据计算、实时流计算、数据挖掘等,后文将要介绍的典型云计算应用服务,如多尺度影像的快速切片、位置数据路网实时匹配、视频数据典型目标动态检测就是基于该基础平台接口进行的扩展开发,使用空间云计算的组件接口来达成数据的实时性、高效性、安全性处理。
采用hadoop大数据分布式计算框架,基于高性能地理信息数据处理引擎Geotrellis,对多尺度海量遥感影像大数据进行导入,利用Spark RDD任务并行特性、高可用性对原始影像进行快速瓦片分割计算;采用Accumulo分布式列式索引数据库对瓦片进行存储,并支持瓦片栅格服务发布时进行的高速大数据查询,实现影像发布的高可用。解决了传统方式在大影像数据从磁盘加载比较耗时、IO效率存在瓶颈、程序处理异常不可恢复、服务迁移不便的问题,增强数据处理效率吞吐量,提高用户体验以及影像发布的实际应用价值,服务流程如图6所示。
图6 遥感影像快速切片服务流程
海量的移动位置传感器位置数据接入平台后,实时消息Kafka服务将原始位置信息导入Storm流式接收器,将城市中的海量交通设备位置流式数据通过高效实时的Storm计算框架进行分发调度,分布至各个运算节点进行运算;根据初始定位结果,利用路网数据库,实时计算处理,将每次移动目标点的位置坐标进行纠正,投影到实际道路位置,并实时反馈至外部消费服务用户,从而使用户获取精度更高的实时位置,减少位置信号噪声所带来的干扰,服务流程如图7所示。
图7 位置数据路网实时匹配计算服务业务流程图
为了克服传统图像识别对视频这类随机复杂数据的环境识别能力弱、误报率高、计算实时性差的问题,采用分布式深度神经网络计算技术平台框架,通过构建图像卷积目标分割模型,对视频传感器实时流进行处理,实现对当前环境的人、车等典型对象内容实时高准确率的识别与分割,达到典型视频图像内容识别分类的目的,服务流程如图8所示。
图8 视频数据典型动态目标检测服务流程图
智慧城市时空大数据平台建设是提升城市治理能力、解决城市问题的具体举措,也是全面履行好自然资源部职责的切实行动,对于促进城市政务信息资源整合共享、实现信息资源深度应用、支撑政府科学决策具有重要意义[14]。