大缓存、大交换、大共享

2018-11-26 11:14张瑞飞

软件和集成电路 2018年8期

张瑞飞

我们专注于自然语言处理，主要在大型企业市场落地，在落地过程中我们遇到一些问题，今天借这个机会把我们的后台处理能力和我们对大数据未来的一些认识在这里给大家分享一下。

我们有大量数据来自互联网和企业内部，怎么把这两方面的数据融合起来，去解决数据壁垒问题？我们看到传统企业和互联网企业在做的过程中产生了不同的痛点。从互联网企业来讲，他们能够把数据迁移到云上，但是缺乏在云和企业之间的数据同步。从传统企业来讲，我们看到了大数据已经推动了很多数据分析手段的进步，包括人工智能和大数据的处理手段正在向传统企业靠拢，但是他们似乎对数据孤岛的处理手段准备不充分，我们需要解决这个问题。

在利用大数据提升政府治理能力方面，我国出台了多项政策，推进政府数据汇聚、共享、开放，取得了诸多进展。各地纷纷将大数据作为提升政府治理能力的重要手段，通过高效采集、有效整合、深化应用政府数据和社会数据，提升政府决策和风险防范水平，提高社会治理的精准性和有效性。在今年的数字中国建设中，各地纷纷推动大数据交换与共享应用工程。

在这个过程当中，人才储备的压力给我们带来很多成本上的增长。另外，我们有一些系统开发出来，在没有装实际应用的时候，平台已经占用了十几台服务器，给我们的交付带来很大的难度。这个难度就是传统大数据架构导致的缺陷，我们称它是Lambda架构缺陷。

现在我们常说ETL已死，ETL是什么呢？我们早期在做数据仓库的时候，有很多交易型数据需要向数仓里面做加载、传输、转换和抽取。当时发展出来的ETL技术应用到今天已经落后了，我们需要用一个全局式的、能够完全支持分布和共享的数据处理能力，这个能力是什么呢？是数据通道。

我们在数据共享的时候，需要一个数据高速路，但是传统大数据很少讲这些，我们讲得比较多的是如何构建一个大的分布式集群，把数据放在这里，却没有真正共享起来。我们需要一条路能够以TB级的内存缓存、处理数据，我们在探讨一种新的数据交换、清洗和共享方式。

基于这些，谷歌从2014年开始探讨，为世界贡献了一个容易使用而又强大的全新生态。Google在2016年2月高调宣布将其数据流水线产品（Google Dataflow）贡献给Apache基金会孵化，2017年1月10日Apache对外宣布的开源平台Apache Beam，Google则发布了Cloud Dataflow。

我们把这些能力定义为大数据2.0能力，不仅关注传统的大数据存储，更关注大数据使用、共享、交换、处理。我们借鉴了谷歌和亚马逊的思想，把系统设计成同时处理几十万个或者上百万个数据来源，同时支持实时的一体化平台。解决什么问题呢？解决刚才我说的很重要的问题，就是我们到底该如何简单交付？我们该如何让普通人进行大数据和人工智能的建模和开发？我们的深度学习资源池和大数据资源池以及图处理资源池能不能放在一个平台里面进行交付？

我们基于大数据交换共享平台Buffer Data Exchange做了一些跨云的数据中心交换和共享，支持几乎所有数据源，包括关系型数据库、各类文件、大数据平台、物联网数据。大数据今天处理的也许不一定是我们常见的数据库，可能是物联网的一个协议，也可能是日志文件。基于这个我们也做了一些整合，一方面我们给AWS做数据迁移，另外一方面实现了云之间不同模块的迁移。利用这个能力去做一些云灾备，包括处理一些迁移过程当中的系统升级，比如把Oracle10迁移到Oracle11上，这是一个自动化的、平台化的过程，我们把数据加载到内存里面去加工。

这里有一个例子是技侦电信监测大数据平台，这个数据平台可以动态扩展数据。目前我们部署比较大的规模是3个PB、412个节点。技侦的数据量特别大，每天有20多亿条数据，其中有2.7亿条云清单，每个月有124个TB级的数据，并且数据特别复杂，有很多不同类型的数据资源，包括视频、网监、反恐等不同的资源，我们跨越了所有数据格式和资源，提供了高效处理能力，给我们人工智能平台产生一个统一接口。我们建了一个集群，把数据采集过来进行统一加工。这样的话，我们仅用33个节点就能够支持全省的技侦数据量，对比传统方式有了比较大的提升，基本上实现了毫秒级或者秒级的数据查询。

还有一个例子是对互联网的改造，互聯网公司的数据日增量是20TB到40TB，所以实际上是有架构迁移的刚需，比如从传统的Hive系统迁移到新的系统上。我们把性能提升了560倍，延时从80秒减少到0.3秒。我们提供了这样一种能力，就是如何解决数据交换和共享的问题。我认为，在海量数据和多元数据汇集上，如何解决高速计算、压缩以及简单交付的问题，这是未来几年大数据发展的核心问题。

（根据演讲内容整理，未经本人审核）