从大数据到小数据

2019-01-30 02:26
软件和集成电路 2019年12期
关键词:次方数据库系统数据量

资源有限的小公司可以进行大数据分析,BEAS构建在现有的商业DBMS之上,为小公司提供了查询大数据的即时能力。

—中国科学院外籍院士、英国皇家学会院士、欧洲科学院院士,英国爱丁堡皇家学会院士、国际计算机学会会士樊文飞

数字经济离不开大数据计算,下面我介绍一下关于大数据计算的挑战和机遇。我从事的是计算机工作,具体来讲是工业计算,给函数F、参数X做计算。在大数据环境下,用数据库的术语来讲,Q是查询,相当于函数F,D是數据,相当于参数X。在传统计算机数据库领域,我们处理GB级数据,量级达10的9次方。在大数据环境下,我们要处理PB级乃至EB级数据,量级达10的15次方乃至18次方。那么有一个问题,量的变化是不是能带来质的变化?

的确,大数据量的变化给技术理论及应用技术都带来了变化。以Facebook为例,假设我要去纽约,想找一个餐馆并查询餐馆的收费情况,而我的朋友今年5月份去过这个餐馆。现在有三条记录:第一,Pid1是Pid2的朋友;第二是就餐记录,某人于某年某月某日,在某个餐馆就餐;第三是餐馆记录,包括餐馆名称、平均价格等。这些是常见的数据,我们可以在数据库中进行简单查询,叫作SPC(统计过程控制)。那么我们如何进行查询?这是一个传统的查询计划。第一步,先通过扫描朋友列表,找到我的朋友,把他放在表格里,这就是F;第二步,查找朋友的就餐记录,找到他5月份就餐的餐馆,这是嵌套循环。我用传统计算机数据库的技术,通过组件可以实现上述的查询功能。

现在的问题是增加了数据量,查询计划能否行得通?Facebook训练了几千亿的外键,而且有十亿多的用户。两年前Facebook的数据量高达300PB,每天以半PB级的量在增长,这会带来怎样的挑战?我能找到最快的固态硬盘的最大容量是15TB,每秒钟扫描容量达到12GB。假设我的数据量没有300PB,只有15TB,某人只有100个朋友,那么我需要多长时间查询出结果?首先,做一个线性扫描,扫描一次需要20分钟,其次,做嵌套循环需要2000分钟,总共是33小时,约1.4天。这个查询很简单,何况要处理的是300PB的数据,而不是15TB的数据。

我们再看看传统计算机的计算复杂性存储理论,也就是把计算问题分类,易解问题可以用多项式表示,如果不能用多项式表示,我们称之为NP-hard或者Intractable。这是个传统理论,沿用了50多年。我们看看在大数据环境下是不是发生了变化。15TB的数据计算要用1.4天,复杂性是N的2次方,按传统理论来说是易解问题。易解问题是P,在大数据环境下,P的一部分是易解的,另一部分是不易解的。传统的计算能力应用了50多年,但在大数据环境下需要更新。

的确,大数据给传统计算理论和计算基础带来了新的挑战。工业界如何应对挑战呢?用大数据。我在Facebook工作的学生告诉我,在Facebook,计算查询平均需要5万台机器同时运作,如果说计算时间可以被多个处理器平均分担,那么刚才这个查询的完成时间为2.4秒。但是这一类计算只用于比较特殊的查询。如果使用并行计算,假设处理器越多,计算得越快。但并行计算不是万能的,对于资源有限的小公司来说,这不能解决问题。使用传统的计算理论,只能跟在别人后面走,未必会拼得过别人几十年的积累,所以我们需要新的理论和方法。

因此,我们提出了有机计算,可以理解为我们有大数据,要计算查询,虽然数据集很大,但不必查询所有的数据。在有些情况下可以有一个小数据集,小数据集的计算结果和大数据集是一样的。这个小数据集的量与大数据集是无关的,如果能找到小的数据集,就可以把大数据变小,把大数据计算变成小数据查询,这就是有机计算。

难点在于如何找小数据集?我们提出了一个理念—Access schema。也就是说无论数据集有多大,都可以在有限的资源下做大数据计算。以Facebook为例,它规定每个人的朋友数量不超过5000个。首先,可以给每个人建一个索引,朋友数量最多5000个,然后设置每个人每个月最多用晚餐31次,这样就可以根据ID找到其餐馆价格,这就是所说的把大数据变小,从而解决查询问题。

我们基于这个理论开始做研究,并把它做成运行系统,我们发现77%的SPC Queries是有机系统。后来我们用单机来做,一般大数据的查询能在9秒钟之内完成,然而传统的数据库系统耗时14小时也不能完成。华为公司用了我们的系统以后,发现查询效率提高了很多。学术界认为我们改变的是有机计算。

我们还提了另一个理念—数据驱动的近似算法。我们根据资源拟定一个资源比率,把小数据集的计算结果作为近似计算结果,并且保证所有计算过程中X不超过这个数据,而且能够保证精度。这里的精度和传统定义不一样,不再是概率,而是精确解,能够保证每个近似解都存在一个精确解,并使他们保持在一定的范围之内。在大数据资源有限的情况下,这可以为我们提供实时分析。

现在我们的团队准备把这套理论做成数据库系统,我们的团队是一支细分领域领军人员全配置的研发团队。我们的数据库系统预计明年推出,希望能给资源有限的小公司提供大数据处理能力,希望他能真正成为中国自研的数据库系统,欢迎大家使用,谢谢!

(根据演讲内容整理,未经本人审核)

猜你喜欢
次方数据库系统数据量
计算机数据库系统在信息管理中的应用
高刷新率不容易显示器需求与接口标准带宽
AMAC
寻找1024的因数
对分布式数据库系统的安全分析
考考你看数字猜成语
基于众包的数据库信息查询处理方法
手表+手链+戒指 N次方组合
数据库系统在计算机体系结构中的应用
一组计算题的启示