最新的图灵奖获奖人是Dr. Michael Stonebraker,数据库领域非常著名的专家之一,这也证明了大数据技术对产业而言非常重要,而智慧城市作为大数据实践很有代表性。
大数据
是智能城市发展的助推剂
很多人经常把智慧城市理解为城市信息化,实际上,智慧城市的含义远不止于此。它应该是一个复杂的信息生态系统。这个生态系统包括三个环节,第一个环节就是感知,首先它能对大数据和城市信息进行感知。第二个环节就是要有一个计算能力超强的数据中心,能把感知到的数据进行处理。第三个环节往往是被忽略的,就是要有一个决策中心。我们现在在进行城市信息化建设时,往往是先定下来一个决策或规划,然后再去实施,所有的系统是按照前期响应的目标逼近,这个思路是错的,这也是智慧城市要远远大于城市信息化的原因。决策应该在后,就像人一样,他首先要对周围环境有一个感知,然后经过大脑的处理,最后决定事情怎么做。所以我们现在的智慧城市或者智能城市,应该按照和人较类似的思路去对它进行管理和控制,这三个部分,特别是最后一个部分对于今后城市的管理是很有挑战的事情。
以广州外地车限行对策为例,2012年广州就想解决拥堵问题,此前很多人认为拥堵原因在于路上行驶的车辆很多并不是本地牌照,广州希望效仿北京的做法,在入京之前办理通行证,限制外地车辆在京的逗留时间,以此来缓解交通压力。广州有关部门通过大数据的分析得知外地车在广州可分成四类,一类是本地化使用,譬如深圳的车牌在广州使用;第二是候鸟型;第三是偶发过境;第四是常发过境。分类之后,人们发现真正对本地早晚交通造成拥堵的,实际上是第一类。外地车的本地化使用数量约4.7万辆/月,只占所有外地车(约357万辆/月)的1.31%,基本可忽略不计。实际上即使把这些外地车限制住了,高峰时间只能解决1.31%的拥堵,因此上述政策的实施与否对解决交通拥堵现象并没有太大意义。这也体现了大数据在做决策上的重要作用。
传感器网络
是智能城市的基础
在整个智慧城市的生态链里,城市大数据传感网络和大数据中心是基础。在这个系统里最主要的就是把数据实时、全方位地搜集,随时随地地感知,然后输送到数据中心处理。
目前的智慧城市,其网络都是碎片式的,没有完全连起来,这是有问题的。所以一个比较理想的感知网它应包括刚才说的所有的数据和网络,这其中每个单独的信息都应实时汇聚到数据中心,真正形成一个网络。
现在很多网络大部分都是单独存在的,最终要全连接起来需要不小的投入。譬如在感知网络里,大家很容易想到交通系统里的一卡通以及各种交通工具的运行情况,把它们全部放到城市的数据中心里。现实中经常出现一些套牌车的事情,中途一旦换掉了车牌,基本上目标就丢掉了。但是,如果用刚才所说的感知系统,我们就有办法不仅感知车牌,而且感知车型等。
交通状况的感知现在已经深入到每一个人的生活当中了,如果我们想查查是否堵车,哪条路堵车,马上打开导航,打开GPS,打开相关地图软件就能看到。这些信息都是从后台统计而来的,后台把包括出租车在内的一些GPS信息或者个人的GPS信息,做一个数据统计分析,查看在某个区段,这些移动的物体的平均速度是多少,进而把整个交通状况统计出来,有了这些我们对整个交通状况就很容易感知。据统计分析,在所有的感知系统里,最大量的数据就是视频数据。但这些数据现在都还没有很好地利用起来。如果今后能加入摄像头的监控统计,以及地下的传感器数据,把这些数据都加在一起做更准确的分析。
另外,城市里总有各种各样的流行病的产生,流行病发展到什么程度,都是通过新闻里知道,但是现在通过医保的统计可以分析这些情况。
污染是我们当前面临的一个很大的问题,现在大家得知污染的情况更多的是从空气指数,或从网站和手机软件上看到的,但是信息量太小。现在通过大数据,把个人发动起来,在每个人家里装一些检测设备,让可信的数据入网,通过采集的大数据准确定位污染源。
因此怎么样把这个传感器网络真正建好,确是一个很大的挑战。
大数据中心形成决策依据
当我们从感知网络获得了大量数据,就应当送到数据中心,这一过程并不难,但是到中心的数据怎样形成决策,也就是怎样把海量数据变成大数据,只有经过整理可以使用的大规模的数据才能叫做大数据,否则只是海量数据,只是一个简单的堆积。从技术上看,就是要过“三关”。
存储 现在的存储系统还不能做到把所有数据存储下来,譬如现在大多数像智慧城市里的系统,都不敢存太多监控视频的数据,最大的系统大概也就存三个月就会被覆盖。怎么样让数据能够保存下来,这是一个技术挑战,要么把数据文件压缩到很小,要么把没有用的数据丢弃。怎么样压的更小,就是做视频编码或者视频压缩,现在经过30年的攻关,现在技术上应该说已经做到每10年翻一番。从压缩效率来看,每一代是前一代一倍,高清视频第一代压到150分之一,到第三代已经做到300分之一,我们希望第四代压到600分之一。这些技术还在进展,也确有做的不错的。比如说在AVS这个领域,视频编码里我们在监控视频已经比国外同样水平效率更高一倍。HEVC就是第三代编码技术,在极端的情况下,或比较苛刻的情况下,使压缩效率提升40%,在宽松的情况下基本上就是两倍了。
表达 存储的数据要进行特征的抽取、比对和分析,就需要表达。特征的提取也是很关键的,比如机器学习或数据挖掘,其实这些算法最后效率的高与低都取决于表达能力强与弱。现在对于汽车的表达,已经有一些很好的技术,譬如一些加强的SIFT特征的技术,可以把车牌和车型组合到一起进行表达,当出现车牌被换或者套牌车等,用这个技术表达一下就能识别,通过这种办法也可以在更高层面进行压缩。有了高效的存储和表达,就可以做非常快速的检索或搜索。
计算 此外,最顶层我们就要进行场景的分析,最后形成决策的辅助,这就是大数据的处理,这个处理最核心的就是数据的关联。因为传感器的数据来自不同的摄像头、不同的地点,怎么样把时间、空间都关联到一个空间上,这是非常难但是却很重要的问题。譬如通过这种关联我们可以进行分析跟踪的技术,另外就是对多个摄像机进行对像的标识。
总而言之,整个智慧城市的生态链有三个比较重要的部分:传感系统、大数据中心以及决策的环节。最后也是最关键的环节是决策形成的流程,它已经超出了技术范畴,而是管理范畴,必须要由政策的制定者基于大数据形成决策,并进行落实,这是一个很大的挑战,但我们做大数据的人要经常向管理者灌输这个理念,使他们对第三环节更重视,让大数据真正体现它的好处。
(以上内容系根据高文院士在“2015第七届云计算大会”上的演讲整理而成)