◎ 中国工程院院士 邬贺铨
利用开放数据打造智慧城市
◎ 中国工程院院士 邬贺铨
信息化的深化应用已经发展到以“大智移云”(大数据、智能化、移动互联网和云计算)为特征的新時代。“大智移云” 互为关联,宽带化、移动互联网、物联网和产业互联网产生大数据,大数据的挖掘应用需要云计算,大数据的应用还提升了移动互联网、产业互联网的价值。
信息社会,数据无处不在,数据量以惊人的速度增长。例如,现在视频监控摄像头广泛应用于主要道路、热点地区、地铁和小区的安全监视。一个8Mbps摄像头每小时产生3.6GB,很多城市的摄像头多达几十万个,一个月的数据量达到数百PB,若需保存3个月则存储量达EB量级。国家税务总局每月收集全国数据4TB,已集中的结构化数据260TB。北京市政府部门数据库总量2011年63PB,2012年95PB。北京的“检立方”系统覆盖北京市三级检察院的50万件案件、380万份法律文书、9800万项检察数据。大量的环保传感器实时地检测大气、河流、湖泊和土壤,不间断地收集环保数据。
医疗也产生大数据,广州中山大学第一附属医院存储的数据量在2008年就达到了100TB,预计2015年将超过1000TB。交通也产生大数据,北京交通中心每天数据增量30GB,存储量20TB。服务业也是大数据之源,国家电网公司年均产生数据510TB(未计视频),2013年累计产生数据5PB。中国联通用户上网记录每秒83万条,对应年数据量3.6PB,中国移动每天话单数据10TB,信令数据100TB,上网日志500TB。中国工商银行企业级数据仓库存储量已超过350TB,积累的数据4.5PB。
互联网公司更是大数据的收集者,阿里公司单日数据产生量超过50TB,峰值处理交易3.8万笔/秒,已存100PB已处理过的数据,百度每天处理60亿次搜索请求,新增800TB,存储网页数近1万亿,数据总量达到EB级,腾讯活跃用户QQ超8亿,微信超5亿,日新增300TB数据,数据总存储量100PB。
我国有约300个城市明确要建设智慧城市。关于智慧城市普遍认为无线城市、数字城市、宽带城市、感知城市是智慧城市的必要条件,创新城市、绿色城市、宜居城市、平安城市、健康城市、幸福城市、人文城市等是智慧城市应有之意。关于智慧城市目前还没有权威的评价标准,欧盟等国家认为开放政府和市民参与城市管理是重要的标志,开放政府是智慧政府的前提。
2013年6月在英国召开的G8会议,签署了“开放数据宪章”,提出了开放数据五原则,即开放数据是基本要求、注重数据的质量与数量、让所有人都可用、为改善治理而发布数据、发布数据以激励创新。美国政府建立了统一数据开放门户--Data.Gov,按原始数据、地理数据和数据工具三类开放政府拥有(屏蔽了个人隐私)的公共数据。
政府开放数据助力城市治安管理。纽约市详尽犯罪记录数据开放后,出现了提示公众避免进入犯罪高发区域和提高警惕的手机应用,同时还能将犯罪记录信息和动态交通数据结合起来,起到指导调配警力的作用。2012年,美国加州大学分析洛杉矶市政府提供的过去1300多万起案件数据,找到了各小区发案与日期、天气、交通状况及其它相关事件的关系,建立犯罪活动预测平台,该系统已使该地区财产犯罪率和盗窃案件分别下降了12%和26%。
开放数据的应用还可以预测流行病的发生。谷歌把搜索词和美国疾控中心的流感传播历史数据进行比较,在2009年甲型H1N1流感爆发的几周前,谷歌就给出了预测,与疾控中心数据相关性高达97%。中科院与百度合作,精选了160多条关键词,对5年来的数据进行建模分析,先于卫生部门公布前几周得出了中国艾滋感染人群的分布情况,估值基本一致。
开放数据能够促进公用事业效率提升。美国交通部开放了全美航班飞行数据,有市民利用这些数据开发了航班延误时间的分析系统,帮助旅客选择正点率高的航班,同时推动航空公司提升正点率,美国航班延误率从2008年的27%下降到了2010年的20.23%。公共交通系统的动态数据公布后,公众进行深度挖掘,不仅创造出了手机应用为公众出行提供实时建议,同时为地铁系统在客流高低峰时段、热点站和普通站之间的调配提出了更优方案。
开放数据有利于扶持中小企业发展。美国Panjiva公司(磐聚网)利用政府开放的海关货运数据建立全球外贸搜索引擎,成为面向采购商和供应商的智能B2B平台,每年采集上亿条货运记录,包括发货人、收货人、集装箱内货物内容和价值等。同时提供信用报告、合格证、网站和供应商等信息。2013年美国政府公布了气象方面的数据信息,有公司通过数据分析预测某一段时间的气候变化趋势,再将结果销售给农业、物流等领域的企业。据不完全统计,类似的气象数据应用已延伸出数百亿美元的新兴产业。
众包数据能够帮助改进城市管理。2012年7月,美国波士顿启动“街道坑洼”项目,支持开发专用的应用程序,司机将装有这一应用程序和加速器的智能手机放在汽车仪表盘上,当汽车遇到坑洼而颠簸时,手机就会向指定的服务器发送包括所在地GPS位置的信息。这一专用应用程序在应用初期时误报频繁,波士顿市政府委托一家众包公司InnoCentive来完善这一工作,该公司设计出一个游戏化程序,以2.5万美元奖金公开征集解决方案,现在新版本的应用程序已有很大改进。目前“街道坑洼”网站已报告探测到波士顿有11万多个坑洼。美国其他城市也在仿效。高德公司以众包思路采集3亿多高德地图用户的出行数据,每天近千万使用高德图在线导航的用户给高德实时交通贡献了大量的用户出行服务数据。高德还融合了几十万辆出租车及几百万辆物流车的浮动车数据,得出全国城市拥堵排名。例如2014年第三季度,北京位于我国十大拥堵城市之首,平均速度22km/小时,每10公里需时27.3分钟、每10公里延时14.4分钟。电信运营商不仅利用自身收集的数据,还通过发展手机用户作为网络性能测试的志愿者,获得网络的实时性能,以此来优化网络性能,改善对客户的服务,手机的数据还可以用来反映马路上车流速度以及城市突发事件。
科技开发众包化。GE公司公开基于3D打印的设计工具并征求喷气式发动机拖架设计,鼓励创客社区参与设计,从56个国家/地区将近700件设计作品中选出10件进入决赛,胜出的设计将重量减轻了85%。纽约时报早年的报纸都发黄了,用计算机扫描方法已很难识别其中的文字,不过计算机识别不了而人是可以识别的,但从哪里找这么多人力呢?将待识别的文字贴到网站作为验证码,纽约时报130年存档发黄的报纸的数字化工作在几个月内就由网民不知不觉完成了。
1935年地理学者胡焕庸根据当时的全国人口数据,在中国地图上从黑龙江的瑷晖到云南的腾冲画了一根线,后来被称为胡焕庸线,线的东侧面积占43%而人口占94%,东西两侧经济发展水平差距很大。腾讯给出的QQ用户在我国的分布密度与胡焕庸线非常吻合,从中可见QQ或者手机用户的分布能反映地区经济发展的差异。
综上所述,移动互联网、物联网和云计算产生大数据,城市数据是智慧城市的重要资产。开放政府是智慧城市的前提,数据开放是评价开放政府的重要指标,开放数据将营造创新环境和释放商业机会。市民的参与性是智慧城市的评价标志,众包是挖掘社会智力资源潜力的有效模式,推动建设众志成城和“众智成城”的生态。