张耀日
(中科云智(深圳)科技有限公司,广东深圳 518000)
近年来,随着大数据处理平台体系架构的完善和容器技术的发布应用,基于大数据处理环境的数据集成技术越来越流行,这也使得大数据集成平台的架构和建设更加简单和快速。与传统的数据集成平台相比,它在数据处理效率、可扩展性、容错性等方面有了很大的提高。
信息集成化,是指把不同部门、不同系统、不同形式的异相信息,加以提取、转化、添加到共同统一标准数据存储库的流程。信息集成化的主要目标,是为了能够对所有异相信息进行一个统一的存储、管理与显示。数据分析集成化可以完全遮蔽各类异构数据之间的差异性、实现资源共享,并提升了数据共享的效率、更高效地提取数据的价值资讯。但数据分析集成化流程并非单纯地将数据分析信息内容堆砌,必须在集成化过程中将“脏数据信息”加以清理、对各类表现形式(存储格式、数据库类型、语义等)的数据分析信息内容加以转化、并重新统一装载三个步骤。
在大数据集成应用的领域,目前已经有了一些方式方法来建立集成模式以及相关的平台体系,目前普遍使用的方式主要有联邦式、基于中间件模式以及数据仓库等,并且已经较为普遍地运用于各类大数据集成行业中,在不同方面都能够解决大数据间的相互访问以及数据共享。
1.2.1 联邦式数据库
联邦数据库(FDBS)由半自治数据库组成,在分散的数据源间彼此提供访问连接,因此彼此也可以共享信息。这种数据库的好处在于数据仍可以保存在一个分散的主系统下,不需形成一个集中统一的数据库;但它的弊端也很明显,即检索速度较低,易产生死锁、数据冲突等问题。
1.2.2 中间件模式模型
中间件模式模型是在大数据集成框架下处于分散的数据源体系(数据层)和系统应用(应用层)的中间,结构如图1所示。中间件模型使用户能够通过统一的访问入口进行存取数据,将所有分散的主数据库系统视为一个统一的集合。该模型的最大优点是用户不需要特别注意与底层主数据库的关联,从而提高了查询结果。所有分散的主数据库系统都可以描述为一个统一的数据集,使用单一的全局访问入口。设计架构模型的最大困难是如何建立这种统一的全局访问可见性,能够使在语义、格式上都有很大不同的主数据库系统,能够反映在这个中间层。
图1 中间件模式模型架构图
1.2.3 数据仓库模式模型
资料仓库是近年来在信息行业最常用的一种词语和方法,仓库一般形容的是储存东西的载体,在信息行业,是具体的存放信息的仓库。同时数据仓库又不同于资料库,数据仓库有着基于时间的、集成的、无易失性的、具有时间相关的特性,可以为公司、机构进行信息服务的信息集合。模型结构如图2所示。数据存储模式是一种多层次的结构模式,一般包括信息收集、数据加工整理、信息存储、统计分析等,数据储存储型是把离散的异构数据资源加以综合统一存储,以便建立一个高质量、标准化的信息集合体,以供公司、机构研究决策。
图2 数据仓库模式模型架构图
大数据时期,由于数据集成平台应用要求逐渐呈现出多元、个体化的特点,加之各主体之间差异也更加突出,所以对数据集成平台要重视技术要求的收集工作,以找出应用的实际需要、潜在要求以及未来需求,并对其准确认识、描述和集成,同时又按技术要求维度、集成层次和集成方式等方面加以分类整合,科学有效地解决技术要求问题,为数据集成平台的顺利开展技术业务打下了根基。
2.1.1 时效性
随着市场竞争的越来越活跃,企业在产品创新和技术创业孵化的过程中对产品的使用要具备相应的时效性,从而保持了市场竞争优势。
2.1.2 刚性
区域科技创新创业主体,通常并不会因为技术资源成本的降低而改变对人才的实际要求,所以用户对技术的要求也缺少了相应的柔性。
2.1.3 复杂性
大数据处理环境下,应用中对技术的要求不仅单一化,而且还更加复杂,因此,除单纯的技术要求之外,可能还要求与之相配套的专业队伍、仪器设备等,甚至更可能的还是需要科技创业需求方案。
(1)根据技术需求的不同环节,可以将其分为不同需求,例如,初始阶段主要对科技群体有较强的需求,中试阶段主要对中试基地有较强的要求,产业化阶段主要对市场条件有较强的要求。
(2)根据需求主体的不同可将需求分类为用户科技创业需要、科研机构及高校科技创业需要以及行政管理机关需要等。
(3)根据技术要求领域的不同,可将其分类为新能源、生物工业、新材料、高端装备工业、现代服务业等,但各个领域之间由于政策环境、资源基础条件等原因,对技术要求也存在着很大差别。
2.3.1 纵向整合
数据融合平台技术的纵向集成方法,指的是面向科技创新主体在各个技术创新环节中对某一个要求进行组合集成的技术方法。由于研究环节、成果转化环节和工业化环节的资本市场技术需求程度略有差异,基于异构技术需求的垂直整合,大数据整合平台还可以为科技金融行业提供融资渠道,如科技风险投资、风险投资和天使投资,以满足全球商业技术融资的需要。
2.3.2 横向整合
数据融合平台技术需求横向集成方法,指的是面向创新创业主体或某一特殊创业环节,对各类技术要求所进行的组合集成的方法。如在研究成果转移过程各个环节的研究转化团队、转移资本、技术工程化等方面的要求,以及在对异质性技术需求横向集成的基础上,数据集成平台将能够提供研究成果转移的子平台,并融入到整个数据集成平台体系中去,从而为科技创业主体在整个研究成果转移流程中提供必要的技术支撑与服务,同时促进公司在技术研究与产业化的各环节中进行了无缝衔接。
2.3.3 网络化整合
从数据融合平台整合技术需求网络化的方法,是指将各种技术需求横向和纵向交叉整合到各种应用程序中的方法,科技企业家的技术链接。网络化集成可以通过技术问题和需求的有效集成,有效缓解技术需求在环境中分散分布的资源问题,提出了一个大数据集成平台,通过大数据分析提出了一个服务解决方案,实现了企业之间的有效协作和交互技术要求和有关资源。
为提升科技对信息整合的效率与成果,同时减少信息整合系统的运营与管理成本,本文介绍了以容器为代表的大数据分析与科技,来打造信息整合系统。容器是一个轻量级的虚拟化产品,具备空间占用低、执行效率高的特性。容器通过进程分离的形式完成对工作平台的分离,非常适合进行集群管理,能够简单、快捷地构建各种大数据处理应用系统。
3.1.1 云平台层
云平台层是整个平台的基石,负责管理和调配分布式信息;同样,通过对容器空间结构加以重新安排,达到更多用户的租户空间资源配置与隔离。
3.1.2 大数据基础能力层
大数据管理平台技术层通过整合各项大数据管理产品,以及通过云平台层带来的各项优势,为技术企业管理信息集成的上层应用领域供给各项必备的软件。
3.1.3 数据集成层
作为整个平台的运行核心,信息集成层将通过大数据管理基础能力层所提出的各类方法,对大科技管理信息系统涉及的各类信息进行收集、转换、处理和分类运算,从而为服务层提供大数据服务。
3.1.4 应用服务层
通过对数据集成层加工、处理之后的大数据分析,应用服务层能够面向不同的使用场合进行定制化的业务,包括大数据分析可视化、科研关系分析、项目管理风险评估等。同时,在应用服务层可以使用由云平台层开发的应用统一调度体系,对应用实施容器式管控。
大数据能力的基本层是计算架构层,它可以快速整合所有重要的大数据处理部门,并提供更有效的工具来解决大数据收集的业务需求数据、数据存储、信息处理等。大数据处理核心能力层的每个组件都可以更高效、更合理地利用各种分布式大型计算材料和资源云平台层提供的存储。大多数组件(与数据存储相关的组件除外)都可以以容器形式部署,也因此,它能够使用由云平台层提供的统一资源调度机制来管理。大数据分析基础能力层中所集成的组件则大致包括了如下五种。
3.2.1 数据采集组件
都是采用了分布式的数据采集平台,整合了各种主要数据库系统、各种网络服务端口和本地操作系统,并具备容错管理与修复机制,从而可以进行高安全、高速可用的数据收集与传输服务。常见的相关组件为Kafka 和Flume 等。
3.2.2 数据存储组件
具有分布式的保存高度结构化、半构造化和非构造化的科技管理信息,并有利于进行快速搜索和查找的功能。常用的相关组件为HDFS、MPP(massively parallel processing)、HBase、Elas‐ticsearch、Redis 等。
3.2.3 计算引擎组件
大多都是分布式运算架构,支撑对大量的科技管理信息实施批数据处理,因此能够有效提升大数据分析整体的运算效能。常见的相关组件为MapReduce、Spark 等。
3.2.4 数据处理组件
提供信息检索与分析的数据仓库手段,如能够实现大量的离线统计分析。同时,通过数据处理软件可以完成对MySQL、HBase、HDFS 等大数据文件的提取、转化和加载等操作。目前使用的相关软件主要有Hive、SparkETL 等。
3.2.5 其他组件
除这些组件之外,在大数据分析技术基础能力层还有一系列机器教学组成部分,如SparkMLIB、TensorFlow、PyTorch 等;数据分析挖掘与数据分析的组件,如RapidMiner 等;数据分析组件,如Atlas、Grinffin 等。
数据集成层也是该系统的运行核心,它主要采用了ETL 技术,先从各个数据中提取出最初的数据管理信息,接着再根据预定义的数据模型,对原始数据信息进行转化运算,然后再把转化后的信息重新添加到原始数据库中。其中,原始资料包含多深度、多维度、多领域的科学信息、技术资料、信息化业务数据资料等,这些原始数据共同组成了科技财务信息系统的数字财富,针对不同的使用情景,可将上述的数据资产以不同的方法整合出来。比如,将技术人员在各个阶段出具的申请书、任务书、汇报资料等数据整合出来,能够复现出相应项目的全部研发经历;再比如,通过把同一个科学指南研究方向下全部的项目和课题数据整合到一起,就能够便于管理者了解该科学领域各个方面的研究成果。而科技管理数据整合的具体过程则包含了数据提取、数据转换、数据加载等。
本文从当前科技管理工作实际业务需要入手,并根据以往的调研工作,提供了一个基于大数据处理环境下的科技管理工作大数据分析综合平台,该平台充分利用了大数据处理的各种控制、运算、储存等组件,具有不错的稳定性、可维护性和容错性。利用这个网络平台,对高科技企业管理信息系统中产生的海量、多源、异构性数据资源加以整合,企业能够高效地运用科技管理数据资源,为支撑企业科学技术经营决策、综合统筹管理提供理论方法与科技保证。