创新计算助力政务大数据应用飞翔

2017-09-25 06:32黄曜令
软件和集成电路 2017年8期
关键词:数据源数据服务数据仓库

黄曜令

大数据的概念出现在2011年麦卡锡全球研究院的一份报告《创新大数据是创新竞争和生产力的下一个前夜》中,这份报告至今已经有6年多的时间。这6年中,无论是国际还是国内都对大数据的发展十分重视,投资每年都在增加。特别是我国,在国家政策层面,党的十八届五中全会公报提出要实施“国家大数据战略”,这是大数据第一次写入党的全会决议,标志着大數据战略正式上升为国家战略。五中全会,开启了大数据建设的新篇章。

数据已经成为了新的生产资料和核心资源,在这个体系下,政府掌握着工商、税务、交通等绝大部分的数据,但是数据本身并不能直接产生价值。所以在大数据的环境下,我们如何对大数据进行统筹、治理以及挖掘大数据背后的价值,这些真正在考验我们。

事实上,数据整合、应用迁移成本一直高居不下,我们有没有一些办法能够更好、更敏捷地去实现这些目标呢?借用一个观点:大数据不是数据的简单累计,大数据不是数据量大,而是计算大。我想在计算大这个前提之下,我们要做的一些事情显然对于数据的统筹提出了很重要的能力要求。在这几年当中,推进大数据发展过程中不能共享的特点很明显,主要原因有两点,一是系统之间相互独立。二是标准化的问题。比如说我们所采用的系统设计、选择的产品、技术路线、建设路线都不一样,这些都会阻碍数据共享。

在一定信息标准体系下,在一定的安全保障体系下,以及我们有一定的服务运维能力的情况下,我们按照一定的标准构建政务大数据平台,通过这个平台,我们为政府的优政、惠民、兴业要提供服务保障。我觉得仍然有很多的细节需要处理。在这个体系下面,数据治理也好,目录检索也好,数据交换共享等这一系列东西,实际上无处不在地需要计算,而如何构建一个敏捷的计算体系支撑这个平台,我认为这是润乾能够给大家带来的一些价值。

在这样的背景下,润乾创新大数据计算引擎发挥着重要的作用,这个计算引擎是由我们完全自主研发的,具有完全自主知识产权的,结合了高级语言的一些优点,让描述计算更简单、更贴近人的思路,这样有什么好处呢?就是,开发效率更高,我们的交付效率更高,我们更有条件去满足各种各样数据服务的需求,让这些需求实现起来更简单。

计算是无处不在的,无论是在过去的信息系统当中还是现在的大数据平台上,我们要把生产数据、业务数据抽取到仓库当中进行统计分析,包括数据仓库抽取到大数据平台当中,我们对外提供数据服务,这些都是一种计算服务。润乾的创新计算显然非常适应这种无处不在的计算。

快速搭建一个大数据平台,在这个体系架构当中,计算引擎在里面承担了两个任务:一是从数据采集层批量地把各种各样的数据源采集到存储体系当中。二是作为核心计算引擎,为上面的统计报表和各种数据服务提供一个强有力的计算保证。

在这个体系当中我们还得考虑运维成本,实际上过去,各种工具、体系对于人员的要求实在是太高了。刚才我们描述的计算引擎两个优点,使描述计算更贴近、人的想法,让我们的开发商、维护人员更容易理解、实现这样的场景。

此外,我们通过润乾的计算引擎构建一个数据服务平台。在过去的体系下,刚才有嘉宾提到海量数据,把五个、十个系统的数据源导到数据仓库当中,实际上数据量也挺大的,但是我们还有很多数据没有导进来。如果说我们要进行统一的分析和计算,应该怎么做呢?还是要通过ETL方式采集到原有的数据仓库当中,但是那么多年下来,我们整个数据仓库的性能和效率可能已经有了很大的瓶颈。所以我们是不是需要建立一个新的数据仓库呢?可能不一定。

在这个体系下,我们的计算引擎能够在数据仓库之上加一个弹性的计算框架,把各种结构化、半结构化的数据源直接抽取到计算引擎当中来,因为我们整个计算引擎对包括传感器数据检测文件和Web服务等这一系列都做了很好的封装,所以我们直接可以把这些数据抽取到计算引擎当中来计算,这样也能够规避底层数据源的差异性,能够规范我们的数据管理。

同时,在这个计算服务层当中,我们提供了标准的接口,为上层提供调用或者是数据输出,提供了一些很好的模式,而且也很好地被集成。通过敏捷的数据服务平台,我们可以为企业内部、部门内部提供不同的数据服务。未来我想一定会整合一些第三方的数据,包括社交数据,到我们整个政府部门的数据中,更好地为民众提供便利的服务。

润乾的基因就是做产品,润乾也已经坚持了17年的计算策略,所以我们未来也会一直在这个领域当中,在基础软件领域中坚持我们17年来的经营理念,就是创新技术推动应用进步。最后,我想说软件引领变革,应用才真正改变世界,但是分工有层次,我们专注做好我们的计算兼架构。

(根据演讲内容整理,未经本人审核)endprint

猜你喜欢
数据源数据服务数据仓库
基于数据仓库的数据倾斜解决方案研究
大数据环境下高校图书馆数据馆员建设研究
图表中的交互 数据钻取还能这么用
公共图书馆流通外包管理研究
数据仓库系统设计与实现
基于Excel的照片查询系统开发与应用
再谈利用邮件合并功能批量生成准考证
数据有增加 图表自适应
胜利油田智慧社区建设研究
数据复用在存储数据仓库中的运用