邬贺铨院士:大数据时代的发展趋势
编者按:在以“从大数据中挖掘大价值”为主题的“第二届中国大数据应用论坛”上,光纤传送网与宽带信息网专家、国家信息化专家组咨询委员会委员、中国通信协会副理事长、中国工程院院士、中国互联网协会理事长邬贺铨,发表了题为“大数据时代的发展趋势”的演讲,预言了大数据的机遇和挑战。
邬贺铨院士
院士简介:邬贺铨,1943年1月出生于广州,广东番禺人,中国工程院院士,光纤传送网与宽带信息网专家。1964年毕业于武汉邮电学院,曾任信息产业部电信科学技术研究院副院长兼总工程师、大唐电信集团副总裁。现兼任国家863计划监督委员会副主任、国家973计划专家顾问组成员、国家信息化专家组咨询委员会委员、中国通信协会副理事长,是国内最早从事数字通信技术研究的骨干之一。
大数据作为云计算、物联网之后,IT行业又一大颠覆性的技术革命,其商业价值正逐渐成为行业人士争相追捧的利润焦点。大数据时代的ICT趋势涉及四个方面的问题:大数据浪潮的到来、大带宽发展的趋势、大网络布局的演变、大数据挖掘的挑战。
1998年每个网民每个月只需要1M流量,2003年就需要100M,2008年就需要1G,到2014年每个月要10G。2001年,全世界互联网流量累计达到1EB需要一年,到2004年只需要一个月,而到了2013年只需要一天。2012年全世界互联网一天的信息量大概是1EB,可以刻满1.68亿张DVD。现在全世界产生的数据量每年增加40%,每两年数据翻一番。2012年和2013年产生的数据量总和是人类有史以来到2011年产生数据量的总和,这个数据规模为1.8ZB,假如把这个数据装在32G的IPad上,要装575亿个,把这些iPad摞起来,可以摞起两座中国长城。2020年全球数据将达到40ZB,如果将数据装在光盘上,这些光盘总重量等于424艘美国尼米兹号航母。所以说,大数据时代到来了。
大数据有企事业单位数据、政府数据、网络数据,包括自媒体数据、富媒体数据、日志数据等等,每天的数据量很大。比如淘宝,每天数据量就超过50个TB;新浪微博高峰的时候,一秒钟就要接收100万以上的响应请求;百度每天处理大概60亿次搜索请求;中国联通每秒钟记录83万条用户上网条数;北京公交一卡通每天有4000万条刷卡记录,而北京地铁每天乘客1000万,把这些数据加以分析,可以用于改善北京的交通状况,优化北京的公交线路。
大数据无所不在。如北京有八十万个摄像头,一个月的数据就达到数十个PB。北京公安局规定,所有超市,只要有开放食品架的,全都要装高清摄像头,能清晰的拍摄到走在架前人的脸部,以防投毒。
大数据的应用也很多,比如淘宝,通过采集淘宝网上成交额比较高的390个类目的商品价格得出淘宝的CPI,比国家统计局公布的CPI更早预测到经济状况。国家统计局统计的CPI主要根据是刚性的物品,比如食品。但经济好与不好,人们都要吃饭,因此差别不大。可是淘宝上都是买化妆品、电子产品、服装,经济不好就会少买,因此,淘宝CPI更能反映价格走势,一般来讲,比我们国家统计局公布的CPI,能提前一个月至半个月预测到走势。中央首长看到淘宝的统计以后就说“你们每天把淘宝的CPI送到中南海”。2013年经济情况下行压力大,很多中小企业贷款很难,因为他们没有担保。阿里公司根据淘宝网上中小公司遭遇的状况,筛选出财务健康的诚信企业,不用担保放贷300多亿元,坏账率仅0.3%,2012年公布的四大商业银行坏账率是这个数的13倍。
一个地方发生流感,便会有很多人在网上搜索相关词汇,根据这些词汇出现的频率,便可以判断这个地方是否出现流感征状。Google在2009年甲型H1N1流感出现时,它比美国疾控中心提前几个月发布公告。Google前雇员创办了Climate公司,从美国气象局获得几十年的天气数据,并与各地的农业状况、土壤状况关联起来,向有需求的农场主说“谁问我明天种什么能赚钱,我告诉你,如果我说错了,我的赔偿要比保险公司还要高”。据说到现在为止,他们还没赔过。而我们国家的农业还未充分使用大数据,农民只是根据简单的判断,今年猪肉贵了,明年大量养猪,明年猪肉便宜了,而后年猪肉又贵了。所以农业上的大数据应用是很有帮助的。
大数据必然驱动大带宽,这是全世界国际互联网干线的流量状况。根据美国的预测显示,2010年比2009年的全世界数据量增长了62%,按这个推断,十年来国际互联网流量要增长1000倍,美国自身的互联网流量也是十年间增长1000倍。无论亚洲金融危机还是其他危机,互联网流量都不受影响,依旧保持高速增长。
首先是光纤浏览。早年是模拟的频分复用,上世纪90年代开启了光纤复用,叫数字的时分(TDM),当时一对光纤可以传2.5GB的三万电话电路;波分复用,一对光纤不仅仅可以传一个波长,还可以同时传输多个波长。现在,一对光纤在工程上已经可以传送1.6TB,相当于2000万电话电路。光纤通信还可以采用更多的光纤技术,做到一对光纤传输16个TB,两亿电话电路。光纤传输能力十年扩大了1000倍,目前来看还有很大发展空间。现在光纤光缆成本很低,中国生产世界一半的光纤光缆,同时也消耗了世界一半的光纤光缆,十年前中国的翻新光纤一公里卖到2000多元人民币,去年报价是一公里光纤53元,现在光纤比面条便宜,极大地支撑了宽带化发展。可以看到,1995年的时候数据总容量比较小,只有2.5G到10GB,波分数量也只有8到40个。到2010年可以看到,信道单波长已经做到100G,信道容量做到15个、50个波长。到2020年单波长要做到1T,总容量还会增大。随着大数据时代来临,运营商还要大量的增加光纤容量。
另外,不单是干线容量增加,用户节路带宽也希望增加,所以新的运营商在推动“光纤到户”。实际上“光纤到户”是广义的,并不真正是“光纤到户”,而是光纤到大区、光纤到大楼。这样用户的带宽能上到100兆。除了有线,我们希望无线也是宽带的。第一代移动通信在90年代的时候就退网了,那个时候是模一的电路交换,带宽比较差,现在中国基本上都是增强型3G,几十兆。前几年在上海世博会上尝试了眼镜型的3G,也叫LTE实验,现在全国已经有十多个城市在开展实验。
第一代移动通信蜂窝小区靠频率不同来区分用户,叫做FDMA频分多址;第二代移动通信GSM靠时分来区分用户,叫TDMA时分多址;从第二代开始,第三代移动通信有CDMA的是码分多址;现在到第四代移动通信叫OFDMA,是正交频分多址,把频率、时间、空间的因素都利用起来,使得移动通信的峰值速率每年平均加倍,10年1000倍。提高移动通信的峰值速率要付出很大代价。早年GSM只有kbps,后来到100k,到3G是Mbps,甚至是10M量级,现在到LTE开始是百兆量级,随着移动通信峰值速率越来越高,我们的终端能力也越来越强,不断提升终端的宽带化的能力。要提升这个能力现在面临很多挑战,比如说当手机离基站很近的时候,它可以直接从基站获得信号;当手机回到家里,可能楼宇的墙壁钢筋水泥太厉害以致信号穿不过去,就要加上室内中继来接力。当远离天线时要发展终端到终端,也就是当你拿着手机走在路上时,没打电话和上网,但是不知不觉当了第三者,当了别人的二传手。
过去没有人谈云计算,上世纪80年代谈数据库、90年代谈IBC,现在谈云计算。实际上云计算更准确应该是云服务,未来会发展成什么还不知道。云计算底层有一个基础设施,像我们很多企业把它的数据库托管到运营商那里,这就使用了云计算,使用了IaaS系统。IaaS里头有数据中心、存储器、服务器,对运营商来讲,是“数字房地产”。运营商希望进一步在上面增加开发工具,叫PaaS,可以提供JAVA、Web2.0等一些开发工具和中间件等等,企业可以租用这些开发工具,开发企业要的一些软件,比如说数据挖掘等等。对于一些小企业而言,没有开发能力便干脆直接租用软件,这是SaaS。比如说,现在任何企业都希望大数据分析,但是每个企业去买这些数据分析软件是很不划算的,因此租用第三方的分析软件是一个可能的方向。更进一步的有Business,有能力的企业可以在上面更多的开发。所以云计算并不是为大数据而诞生的,但云计算正好适应了大数据的需要。
另外一点,网络节点位置要从信源中心向能源中心扩展。我国有20个省市制定云计算规划,大规模数据中心建设成为各地发展热点,11个省市云计算投资均超过100亿元。按照工信部等八部委在2013年1月14日发布的《关于数据中心建设布局的指导意见》,中国的数据中心要考虑气候环境、能源供应,建议我们国家的云计算中心向高纬度地区集中,也就是内蒙、西北这些地区。过去的数据中心放在上海、北京、广州这些地方,而将来的数据中心有一半是云计算中心,而另一半更多要放到内蒙、西北,也就是说网络结点位置会从信源中心往能源中心拓展,实际上云计算会改变互联网的流量和流向。
由于数据量非常大,过去运营商并不是每个省线路都互相直联,往往要通过北京互联,有些通过上海和广州。现在中国电信ChinaNet网络每个省之间都直联了,因为数据量太大,所以希望网络要扁平化。过去我们都说什么东西都到IP层做交换,随着数据发展以后,我们希望路由器的容量会很大,一个纯IP电的Tpbs路由器,一个端口就1000瓦,功耗很大,如果光的类型交换,一个端口才25瓦,而且大数据里大量的数据是过路的,而不是落地的,因此现在改变了互联网的格局,凡是能在光层上做的交换绝不在电层上做,凡是能在MPI层上做的交换绝不在IP层上做。现在IP要变成包装,能不在IP上交换的绝不在IP上交换。
另外,过去的路由器本身具有转发和控制功能,也有节点控制功能、业务控制功能,每个路由器都是独立自我的,它根据来的数据选路,但是这样的方式很难适应大数据时空动态性,大数据的产生位置、发生时间可能是不均和不平衡的,如果动态需求希望我们的网络也是动态的,那么传统路由器的刚性设计很难适应动态需求,因此现在提出SDN(软件定义网),希望把路由器里头操作系统提起来,然后把路由器控制集中,这样造成网络操作系统,而路由器就剩下传输与转发功能。
大数据推动城域网体系的演变,早年都是大计算机连大服务器,后来很多时间提的是客户服务器,计算机连到服务器。当一个热门的节目所有终端都希望下载的时候,这个服务器就是瓶颈。因此出来了P2P,即各个终端能力都很强,每个终端没必要把内容全部下载,只需要下载其中一部分,然后相互交换,就叫做Peer-to-Peer。现在这个体系架构也需要改变,因为大数据的出现,一个终端到一个服务器之间,很多数据装不下的,便可能需要调用其他服务器存储数据来支持。因此最近五年,我们国家接入网流量带宽增长了6倍,而城域网流量增长了22倍,有更大流量在服务器之间交换。也就是说,网络的体系会从客户服务器的垂直架构向服务器之间的水平架构优化。
另外,由于数据量很大,所以现在Google、雅虎、亚马逊、腾讯、新浪、百度都纷纷把它们的数据通过CDN写到不同地方。腾讯总部在深圳,可是它把很多服务器放在北京、广州、上海等地,甚至分散到很多省,目的是缩短用户接入到服务器的距离,所以内容分配网应用而生。近年发展得很快,内容分配网会对整个互联网流量流向产生重大的影响,走了捷径,那么省间长途流量就可以下来,所以内容分配网拉近了信源和用户的距离。
大数据技术涉及到数据采集、数据存储、数据计算、数据挖掘、数据呈现、数据安全等,涉及到很多环节。比如说挖掘就需要对数据进行清洗、合并、压缩、转换格式等,然后进行统计分析、知识发现以及可视化处理,再来找出它的关联规则、分类、聚类、排序列和优化路径。
曾经有人认为买高端服务器才可靠,后来Google首创利用低端服务器,但低端服务器可靠性不好,怎么办呢?冗余配置。就是把一个数据拷到三个服务器里,三个低端服务器的价格仍然比一个高端的服务器便宜,这样一来既提高可靠性又降低了成本。所以大数据的分析需要分布存储和冗余备份。大数据跟过去的分析不一样,过去的数据都是存到静止的数据库里再分析。而现今的大数据是每时每刻都有,根本没有停止的时候,我们不可能等数据停下来再分析,我们必须一边走一边分析。过去的分析是静止的,叫做“带数据进程序”,现在的分析是活动的,也就是“带程序进数据”。所以大数据分析会带来很大的挑战。
另外,更难的挑战是非结构化的数据。所谓结构化,就是说可以用文本表格等方式来表达,即便用文本表格方式来表达,从语意上理解还是比较难。比如地震的时候,网络上为了监控舆情,看看究竟评论是正面的多还是负面的多,有一条信息说“当他发现他儿子还活着的时候,他抱头痛哭。”按照分析,“痛哭”是负面的,但实际上这是正面的。要让计算机懂得人的感情,这是比较难的部分。而照片的分析比起文字的分析更难,要通过OCR扫描出里面的文字,把文字作为标签加到照片上。视频分析可说是难上加难。比如2013年1月份,周克华在南京杀了人,当时摄像头把他拍下来了,南京市调出几十万个摄像头视频,拍多长就要看多长,没有分析的办法就需要靠人看,过程十分慢。因此大数据呼唤智能化的处理、智能化的分析。
另外,大数据需要虚拟化和可视化。比如说,上海江苏路的路上有很多摄像头,每个摄像头背后连一个电视屏幕,在交通管理中心的一面墙上放了很多屏,但再大的墙壁也放不下全上海这么多交通摄像头,所以只能每10秒钟显示一条马路的摄像头,这些都是分离的,一个一个看很难看出问题。所以我们希望通过软件,把这条马路的摄像头合成一个视频,只要看这个视频就知道全马路摄像头的状况,最好是合成全上海一幅图,就像上海市领导坐着直升机俯视上海一样,看到上海市整个城市里头,在哪个时刻段,哪段路交通堵塞。大数据,无论数据有多大,无论是PB还是TB,结果都应该是非常直观的一幅图。
最后,宽带化、移动互联网、物联网、社交网络等催生大数据,大数据预示信息化发展进入新阶段,大数据是信息化新浪潮的结晶。为适应大数据的需求,光纤通信和移动通信加速宽带化。大数据加快了云计算、CDN和对等直联(或NAP)节点的部署,网络节点位置从信源中心向能源中心转移,信源中心向用户靠拢,互联网显现去中心化。大数据挖掘对数据采集、存储、分析、决策、呈现和安全等技术带来大挑战。
(编辑:刘启强 罗丽冰)