应用驱动的大数据融合平台建设

2017-04-21 08:06孟祥飞冯景华赵洋夏梓峻
大数据 2017年2期
关键词:融合

孟祥飞,冯景华,赵洋,夏梓峻

国家超级计算天津中心,天津 300457

应用驱动的大数据融合平台建设

孟祥飞,冯景华,赵洋,夏梓峻

国家超级计算天津中心,天津 300457

论述了大数据在信息社会发展中的核心地位和对信息技术创新的全方位驱动;重点阐述了应用驱动的大数据和超级计算、云计算融合平台层次结构,在物理设施、系统软件、管理体系几个方面系统介绍了该融合平台的体系架构和实现;同时,也以生物基因、气象与空气污染为典型应用具体介绍了平台应用实现;最后结合大数据发展和融合平台建设,形成了一些如何推动大数据产业发展的思考,为政府和产业领域等提供参考。

大数据融合平台;应用驱动;超级计算;云计算

1 引言

近几年,信息技术的发展正在不断推动全面和深入的社会变革,如没有售货员的超市、不用开灯的车间、无人驾驶汽车、全自动化的物流基地等,传统零售业、制造业、交通、物流都曾是工业社会劳动密集、资源密集的支柱产业,而由于信息技术的驱动,这些传统的社会生产和社会关系都在进行重塑,也就是世界正在从工业社会向一个真正新兴的信息社会转变。

信息社会重要的体现是它要以信息技术或信息化手段改造传统产业,并解放传统产业领域的人力资源,同时衍生出更多新兴的产业(如互联网、机器人、3D打印等)转移人力资源,构建信息驱动的社会格局。信息社会的重要支撑涉及互联网、物联网、人工智能、电子信息、云计算、大数据等信息技术的方方面面,而信息社会的核心体现在大数据。

2 对大数据的理解

大数据最初提出与互联网密切相关,对应提出了4V特征:海量的数据规模(volume)、多样的数据类型(variety)、快速的数据流转和动态的数据体系(velocity)和低价值密度(value)。但是,随着大数据的不断发展和融合,特别是大数据超出互联网领域与更多产业、领域融合后,对大数据的理解也更深入和全面。从更广泛的产业领域看,大数据最重要的特征是多源异构特征明显,如医疗卫生、基因科学、智慧城市、能源等领域的数据各有特点,与互联网大数据相比,不仅数据具有的特征、处理技术存在区别,同时每个行业都带有本行业历史发展、区域发展等各种特质或约束,比如行业内机构个体间数据的封闭性、数据标准和质量差异、数据安全及隐私等诸多方面的问题,形成的技术和社会发展领域的挑战要远高于互联网领域。

因此,大数据的意义不仅体现在技术层面,还体现了社会网络化、信息化、标准体系建设发展到高度完善水平,经济、社会、科研、国防等应用需求创新进入了新阶段。

(1)应用驱动的数据价值再创造是大数据发展的目标

大数据技术是为了解决数据管理困难、数据沟通不畅、数据价值密度低等实际问题而出现的,但这些都源自于应用本身的需求。如医疗行业,我国各大综合医院、专科医院或许都有某位就诊患者的信息,但目前彼此信息相互独立,形成信息孤岛,无法进行信息的高效共享,更谈不上关联分析,但在区域性疾病分析、个人健康关联分析等实际应用需求中,发展医疗大数据就应解决信息独立、信息孤岛的问题。

(2)数据获取、标准体系构建与科学管理是大数据发展的基础

大数据的一个重要特点就是数据源多样化,包括数据库、文本、图片、视频、网页等各类结构化、非结构化及半结构化数据。因此,大数据处理的第一步是从数据源采集数据,并进行预处理和集成操作,为后续流程提供统一的高质量的数据集。如果单纯将数据保存,不加以预处理和管理,硬盘最终将成为数据的坟墓。

(3)网络设施能力、高端电子信息技术发展等是大数据发展的保障

大数据产业是社会信息化、网络化和标准系统建设发展到一定阶段的产物。社会高度信息化会产生海量多源异构数据,同时产生更多的数据分析需求;高度网络化使得数据获取和访问变得更为便捷,为数据的自由流动提供了基础;标准系统的建设使得各类数据的存储更为高效,更利于数据整合和分析。放眼全球,之所以美国率先提出大数据研究和发展计划,并在大数据相关产业发展势头迅猛,主要是由于其已建立了较为完善的网络基础设施,已拥有领先的高端信息技术。

应用驱动的数据价值再创造,更体现出大数据发展对信息技术和信息社会的驱动,具体体现在以下几点:

● 数据要“从无到有”,也就是要解决数字化和信息化问题,这将驱动物联网、模式识别、人工智能等领域的兴起;

● 数据要“从散到融”,也就是数据要流动和融合,这将驱动互联通信、信息安全等领域的发展;

● 数据要在复杂的背景下,高效处理有价值的信息,这又驱动了超级计算、云计算、机器学习等领域的创新。

近年来,随着互联网、云计算与物联网技术的不断发展,大数据产业市场规模迅速增长,已成为全球创新发展的重要驱动。国家、企业及相关行业机构都在向大数据看齐,抢占数据创新的先机,努力成为数据创新的最大获益者。

3 大数据平台建设新需求

自“十二五”以来,我国就着力推动大数据发展,进入“十三五”以后更是将大数据提升到国家发展战略,推动大数据快速发展和国家战略实施,成为国家在新的社会、技术发展阶段推动国家创新发展的重要手段,促使大数据应用不断泛化。由互联网领域发展来的大数据平台由于业务、技术和企业自身利益局限,无法满足医疗健康、油气能源、生物基因、智慧制造等这些关系国计民生的重要行业和传统支柱产业领域的大数据应用需求,重点体现在如下几个方面。

(1)行业系统性需求

例如,工业领域的大数据应用涉及工业设备运行监控和管理、产品研发设计与仿真、供应链管理和优化、市场舆情等综合数据的获取、整合和系统性分析;在生物基因领域,各基因库数据和测序数据类型复杂多样的特点、大规模群体数据分析、检测信息服务等对平台提出了存储管理、高性能处理、高业务并发等不同层面的挑战;气象和空气污染等领域,对初始多样性数据的获取和管理、高精度长效数值预报、预报产品的处理和服务同样要求平台具备系统性的大数据支撑能力。互联网企业的大数据平台无法满足这些应用场景的需求,构建面向产业需求的大数据综合平台是应用的必然驱动。

(2)大数据长时效管理需求

对于大数据,除了互联网领域的电子商务、社交网络、舆情等能够快速积累大规模数据并应用外,其他很多的行业领域,如教育、医疗健康、科学研究等,需要一个长期数据积累和标准化管理的过程,医疗健康对大病慢病的数据积累甚至要以10年为单元。这些特点要求大数据平台要有良好的扩展性和稳定性,并形成第三方公信力。

4 大数据和超级计算、云计算融合平台

4.1 大数据融合平台层次结构

大数据与传统数据相比,在规模性、处理方式、理论方法等方面存在诸多不同的特点,如多源异构、存储分散、动态变化、先有数据后有模式等,这些特点决定了在大数据时代进行数据的科学管理和处理时面临的问题和挑战。所以,大数据融合平台的设计和构建,不仅要能够应对大数据应用的现实需求,还要能够适应未来技术发展和应用需求的动态变化。这里,重点针对当前大数据对信息技术形成的数据海量存储、数据高效处理、数据服务多样性及安全等多方面的挑战,提出基于超级计算和云计算的大数据融合平台层次结构,如图1所示。这个平台结构也体现其构建的整体逻辑,就是大数据是应用驱动,超级计算和云计算是能力与技术保障,从而可有效为行业和领域大数据应用提供服务支撑。

在该结构下,基于超级计算和云计算相关软硬件设施,配合大数据融合平台关键模块,实现了数据存储、数据处理、数据共享和数据安全,最终实现了应用驱动的大数据融合处理服务能力。基于云计算虚拟化技术、集成技术支撑大数据采集获取、服务等需求;基于超级计算大规模并行计算能力支撑大数据分析处理需求;基于海量层次式动态可扩展存储技术支撑大数据存储需求。

图1 大数据融合平台层次结构

4.2 融合平台系统整体架构

应用驱动的大数据与超级计算、云计算融合平台,从整体架构上主要涉及以下3个层面。

● 物理设施层:支撑大数据获取、流动、处理、备份等的网络、计算、存储和灾备物理设施。

● 系统软件层:完成大数据整合、处理、展示、安全的系统软件环境,进行大数据的一体化处理。

● 平台管理层:对大数据融合平台的监控、调度、安全管理等。

大数据融合平台系统环境总体框架如图2所示。

4.2.1 融合平台物理设施层的关键技术和建设内容

(1)高度稳定的网络设施

网络设施用于支撑多个数据系统接收发自客户端(Web、应用或者传感器形式、设备等)的数据,用户可通过这些数据系统进行简单的查询和处理工作。平台要求建设和配备高带宽公共互联网络和多网冗余,以满足大数据用户和企业对数据传输速度和效率的要求;对于数据传输要求非常高的大数据应用企业和用户,建设点对点的高带宽专网,以提升网络带宽。通过互联网、专网建设构建和完善高效的服务网络体系,保障用户数据传输的高效和实时性。

(2)高效多态的计算处理设施

应用驱动的大数据计算处理需求是多样性显著、时效性高。因此,大数据融合平台中为了支撑这种复杂性处理需求,需要具备超级计算与云计算融合的计算处理设施,实现对事务并发、数据并发高效处理的系统需求。底层的计算能力要具有分布式计算、异构高性能计算、内存计算等多态计算设施。

(3)大规模动态可扩展存储设施

大规模动态可扩展存储设施重点针对结构化数据、非结构化数据和半结构化数据等不同来源和格式的数据对底层存储系统的要求不同,数据处理的时效性要求不同,应用处理需求与底层存储系统要求不同,按需而建(如图3所示),形成可支撑大量大数据应用的存储和处理的解决方案,解决大数据分级存储构建、分级存储性能优化、数据共享、数据迁移和去重等关键问题。

存储设施建设的重点是分级存储系统,其主要由3层组成:高速内存存储层、在线存储层、近线存储层。高速内存存储层可以极大地满足数据分析对性能和处理速度的需求,满足实时性大数据处理应用的需求;在线存储层提供较大容量的同时,满足多数大数据应用的处理性能需求,主要用于满足在线处理业务的存储需求;近线存储层主要满足数据的规模性需求,可以扩展至EB以上,满足在线存储之外的累积数据的大规模存储需求,同时支撑数据的跨平台交换。

图2 应用驱动的大数据融合平台系统环境总体框架

同时,在不同应用环境下,根据用户数据的属性不同,将数据分成3类进行虚拟化存储:块存储、文件化存储和对象存储。

当为用户提供的虚拟机的硬盘空间不足时,通过传统方式(如本地存储、共享存储)提供硬盘空间,将会出现不易管理,I/O瓶颈等一系列问题,需要采用块存储解决。

图3 按需而建的存储设施环境

在为用户提供的虚拟化环境中,为了避免运行虚拟机对计算节点造成I/O、存储压力,提高虚拟机的可靠性,采用文件化存储(即分布式文件系统)。

对象存储(即云存储)的存储容量可达PB级,是一个适合存储静态数据的永久性存储系统,适合存储的数据包括:虚拟机映像、邮件、备份文档等。由于没有“单点”或者主控节点,云存储平台具有更强的扩展性、冗余和持久性。

(4)数据灾备设施

重点建设成本地运行与同步备份中心、异地灾备中心的“两地三中心”数据安全灾备环境,实现数据运行中心和备份中心及本地数据多副本平台,同时建立异地灾备中心和数据同步平台,保障大数据融合平台的有效和可靠运行。

4.2.2 平台系统软件层重点环节环境构建

(1)数据标准体系与数据整合

在应用驱动的大数据融合平台上,数据整合和数据标准体系的建设紧密相关。首先,数据表示标准包括数据编码规范、元数据规范、非结构化数据统一描述规范、大数据集统一描述规范等,同时这些表示又需要与各行业领域的行业标准对应,所以数据表示标准既有底层相对统一的数据规范,又有上层行业的个性需求,充分考虑才是解决多源异构数据融合的核心。其次,数据存储标准包括非关系型数据库规范、非结构数据管理系统规范等新型存储系统相关规范,对应的具体研究内容是分布式文件系统、非关系型数据库等技术实现,重点是实现数据一致性、数据放置、故障检测、可扩展性等方面。

融合平台应该构建基于数据总线的数据整合系统,如图4所示,主要包括数据总线和ETL(extract、transform、load)封装件,其中每个数据源对应一个ETL封装件,中间件通过ETL封装件和各个数据源交互。用户在全局数据模式的基础上向中间件发出查询请求。数据总线处理用户请求,将其转换成各个数据源能够处理的子查询请求,并对此过程进行并行优化,以提高查询处理的并发性,减少响应时间。封装件对特定数据源进行了封装,将其数据模型转换为系统采用的通用模型,并提供一致的访问机制。

(2)面向特定应用的大数据分析处理

由于大数据的大数据量、分布存储、并行处理等特点以及数据查询、处理作业的多样性,使得传统的性能模型不适合于数据查询与处理平台,为有效估算作业成本,提高作业查询、调度效率,缩短作业执行时间,可重点构建如下几个方面的能力。

● 大数据处理的性能模型:针对大数据处理,建立数据查询和处理作业的性能模型,准确预测作业的执行成本和作业的执行时间,为作业参数优化、作业时间预测、基于成本的调度等提供参考依据。

● 基于成本的作业调度方法和优化技术:针对数据查询任务到数据处理作业的一对多映射问题,研究高级数据查询语言与作业的映射规则,研究面向大数据的查询优化技术;针对大数据查询、处理作业的调度问题,研究一种基于成本的作业调度策略。

● 高性能大数据处理原型系统及数据处理集成工具集:整合目前已有的大数据分析方法,利用现有的Spark、Hadoop等工具,构建一个处理工具集,并提供一个简单、直观的用户接口,避免繁琐的算法参数、数据类型、数据类别等因素影响,降低数据处理使用门槛,为高效能环境的大数据应用数据分析平台提供支持。

(3)大数据可视化技术

主要关注基于平台的数据处理流程可视化和高维数据结果展示可视化两个方面。数据处理流程可视化指数据解析、查询、统计、挖掘与预测等流程的可视化处理,通过全可视化操作界面构建整个流程,由具备动态、智能的可视化引擎和图形组件进行构建,从而将应用数据进行灵活自动的分析处理。该技术以可视化图形组件形式提供给用户端,用户可根据需求自由组合、灵活切换各类模块,实现特定数据分析处理需求。

图4 数据整合框架

在用户端提供一个全可视化操作界面,界面中包括:通用化系统API;系统化处理方法组合,支持自由组合数十个大数据领先机器智能算法;高性能集成若干个通用数据源,支持若干数据库,如DB2、MySQL、MongoDB、Cassandra、Redis等;数据虚拟层支持异构关系型、非关系型数据;灵活切换各类完整智能可视化方法。

如图5所示,可视化交互系统构建成多个可被调用的控件,把各种用户交互功能打包成控件的API,易于其与外部各种信息平台、网络、系统进行集成和交互工作。各应用平台根据用户需要建立客户端,利用接口对分析结果信息进行多维可视化显示与各种交互操作以及进行功能的扩展。

高维数据结果展示可视化主要是指针对高维数据结果进行多层次可视化展示,从而更加直观地挖掘有价值的信息。高维数据可视化的难点之一是如何在保证数据有效性的基础上进行降维并行处理。

(4)大数据安全防护系统环境

安全防护服务为平台的基本服务,包括入侵防御、网络监控、病毒防护等模块。

入侵防御模块:按照设定的安全防御策略,对网络、系统的运行状况进行监视,尽可能发现各种攻击企图、攻击行为或者攻击结果,以保证网络系统资源的机密性、完整性和可用性,重点内容如下。

● 网络监控对所有路由器、交换机、防火墙、入侵防御系统(intrusion prevention system,IPS)的运行状况、网络流量、用户行为等进行日志记录;

● 对相应的访问记录进行自动审查,包括事件的日期和时间、用户、事件类型、事件是否成功及其他与审计相关的信息;

● 能够根据记录数据进行分析,并生成审计报表(日报、周报、月报);

● 应对审计记录进行保护,避免受到未预期的删除、修改或覆盖等。

不论是防火墙、入侵防御系统还是入侵检测系统(intrusion detection system,IDS),都应设置定期更新攻击特征库,并当检测到攻击行为时,应记录攻击源IP、攻击类型、攻击目的、攻击时间,在发生严重入侵事件时应提供报警。

网络监控模块:网络监控能够对所有路由器、交换机、防火墙、IPS的运行状况、网络流量、用户行为等进行日志记录,能够实时记录用户在系统中发起的网络行为,根据网络监控模块的日志记录信息,一方面能够进一步分析用户在时空维度、操作习惯等方面的优势,另一方面也能够作为系统调整网络设施布局、带宽分配、安全策略调整等的参考依据。

图5 可视化交互技术

病毒防护模块:在平台部署病毒防护设备和系统,阻断来自外部的病毒传播和攻击行为,并在内网部署网络病毒监控系统(virus detection system,VDS),发现来自内部的病毒传播和攻击行为。可以通过在核心路由器和专网接入路由器上增加具有防病毒功能的模块实现防病毒网关的功能;通过将接入交换机的数据镜像到VDS设备,可以监控内网传输数据中是否含有计算机病毒等恶意代码。目前市场上防病毒网关的VDS设备大量采用云安全技术,虽然云安全技术可以在一定程度上提高对新恶意代码的响应速度,但可能会造成内部敏感信息的泄露。采用离线升级方式,即在内部网络搭建病毒定义码升级服务器,获得最新的病毒定义码,不断更新病毒码,降低内部敏感信息泄露风险。

4.2.3 平台全方位管理体系建设

平台全方位管理体系建设是涵盖大数据融合平台的监控、调度、安全管理等策略的完善解决方案,这也是平台能否高效发挥作用的重要环节:平台的监控管理涉及底层硬件设施的监控(包括计算、存储、网络等)、应用处理任务监控(应用任务)、安全监控;平台调度管理涉及任务调度、资源调度;平台安全管理涉及制度、人员、过程、操作规范等,重点包括安全管理制度、安全管理机构、人员安全管理、系统建设管理、系统运维管理。

5 大数据融合平台典型应用

应用驱动的大数据与超级计算、云计算融合平台,目标是最大化地满足大数据应用对信息技术平台的要求,因此可以实现大数据业务流程的系统性覆盖和对局部处理需求业务的广泛覆盖。现在这一平台方案已经在生物基因、医疗健康、智慧港口、油气能源、建筑信息模型(building information model,BIM)+地理信息系统(geographic information system)智慧城市、电子政务等产业大数据应用领域开展服务支撑和应用示范,其中有些领域目前利用了这一平台方案中的部分能力,而生物基因、气象雾霾、油气能源开发等已经逐步成为融合平台系统能力充分施展的典型代表。

5.1 生物基因领域的应用

生物基因领域各类数据库物理位置相对分散、数据类型多样,使得数据采集效率低、数据整合困难、数据分析处理时效性低。通过完善基因数据库和细胞分析数据库,可为用户提供高效数据采集与传输、数据存储、生物信息分析处理等一体化的多功能服务,用户可以通过互联网远程操作进行测序数据的处理,随时随地获取生物信息分析资源。

基于融合平台形成的基因大数据处理平台的对外提供服务的流程:首先由医疗机构采集测试样本,并进行相关预处理,然后将样本中的基因数据信息上传至本平台进行基因比对、测序等工序,然后将处理结果整合回传给医疗机构。同时,在这个过程中不断进行数据积累,形成群体基因分析大数据,支撑疾病预防或个性化诊断等。

5.2 气象雾霾预警预报

研究气象雾霾的成因和机理需要大量多源异构数据的支撑,涉及卫星云图数据、雷达数据、气象监测点数据、区域污染源排放清单等,这类数据存在数据量大、物理存储分散、存储格式多样、数据实时更新等特点。通过网络获取卫星、雷达、污染源等数据,基于数据获取和超级计算能力构建自动化实时雾霾预警预报平台,开展大规模数值预报,预报数据通过云平台处理成产品,并对外发布,如图6所示。

图6 自动化实时雾霾预警预报平台系统框架

基于该平台已构建区域气象、空气污染预报业务化平台,为气象部门、环保部门提供稳定的长效高分辨率预报结果,满足社会公共服务,在保障亚洲太平洋经济合作组织(Asia-Pacific Economic Cooperation,APEC)会议、冬季奥林匹克运动会的申办等重大气象服务保障方面发挥了重要作用。同时,通过不断积累观测数据和预报数据,利用大数据分析完善预警预报模型,并为研究区域长效气象和环境变化、环境治理方案提供支撑。

6 结束语

应用驱动的大数据融合平台可进一步解决我国大数据领域创新能力和创新支撑平台不足的现实问题。产业领域大数据研究、应用转化是一个跨界融合的系统工程,需要信息技术领域和产业行业领域深入合作,建立联合实验室、协同创新中心,实现强强联合、相互推动和支撑,这是非常有效的协同发展方式。

大数据对国家治理模式,企业的决策、组织和业务流程,个人生活方式都将产生巨大的影响,同高性能计算、云计算、物联网等技术融合,支撑一个信息技术的新时代。在引导和推动大数据发展方面,国家要抓电子信息基础产业发展,掌握芯片、通信、系统软件等核心技术将掌握大数据发展的主动权;在经济、社会发展的过程中,注重标准化和信息化体系建设;加大网络基础设施建设,提升数据流通效率,降低流通成本;向民生(如医疗健康、环境、交通、能源等)、政务、国防等领域倾斜,构建具有第三方公信力的大数据平台或开放机构,特别是基于大数据融合平台的解决方案和成功应用,可以进一步推动区域或者国家数据中心体系建设,形成社会开发、政府可控的大数据科学发展生态。

[1]郑纬民. 从系统角度审视大数据计算[J]. 大数据, 2015002.

ZHENG W M. Reviewing big datacomputation from a system perspective[J]. Big Data Research, 2015002.

[2]陈文光. 大数据与高性能计算[J]. 大数据, 2015003. C H E N W G. B i g d a t a a n d h i g h performance computing[J]. Big Data Research, 2015003.

[3]方滨兴, 贾焰, 李爱平, 等. 大数据隐私保护技术综述[J].大数据, 2016001. FANG B X, JIA Y, LI A P, et al. Privacy preservation in big data: a survey[J]. Big Data Research, 2006001.

[4]黎建辉, 周园春, 胡良霖. 中国科学院科学数据云建设与服务[J]. 大数据, 2016061.

LI J H, ZHOU Y C, HU L L. Scientific data cloud construction and service of Chinese Academy of Sciences[J]. Big Data Research, 2016061.

Application-oriented integration platform construction on big data

MENG Xiangfei, FENG Jinghua, ZHAO Yang, XIA Zijun
National Supercomputer Center in Tianjin, Tianjin 300457, China

Big data from information society reform was introduced. The application-oriented platform architecture integrating big data with supercomputing and cloud computing was introduced in detail, which including physical infrastructure, system software and management system. Moreover, some typical applications were introduced, such as biology and genomes, meteorology and air pollution. Finally, the opinions on how to promote application development of big data, which can provide reference for the decision-making of the governments and industries, were proposed.

integration platform on big data, application-oriented, supercomputing, cloud computing

G202

A

10.11959/j.issn.2096-0271.2017020

孟祥飞(1979-),男,博士,国家超级计算天津中心教授级高级工程师,主任助理,应用研发部部长,中华人民共和国国家发展和改革委员会“大数据处理技术与应用”国家地方联合实验室主任工程师;中国计算机学会高性能计算专家委员会常委,中国医促会医学数据与医学计量分会副主委,主要研究方向为大规模并行处理技术、大数据技术研发与应用等。

冯景华(1984-),男,国家超级计算天津中心主任助理、系统管理部部长,中国计算机学会YOCSEF天津AC委员,主要研究方向为高性能计算、云计算、大数据系统结构等。

赵洋(1988-),男,国家超级计算天津中心中级工程师、科学计算组组长,负责高性能计算的应用技术开发,主要研究方向为高性能计算、并行编程和GPU优化。

夏梓峻(1986-),男,国家超级计算天津中心应用研发部副部长,主要研究方向为数据分析与处理、大规模并行计算性能优化、大规模并行计算程序开发和异构并行程序开发和优化。

2017-01-23

猜你喜欢
融合
一次函数“四融合”
两个压缩体融合为一个压缩体的充分必要条件
村企党建联建融合共赢
融合菜
宽窄融合便携箱TPFS500
宽窄融合便携箱IPFS500
从创新出发,与高考数列相遇、融合
宽窄融合便携箱IPFS500
《融合》
破次元