李飞云
中国科学院院士、上海交大副校长梅宏月前在杭州西博会分论坛上表示,大数据对时代拥有重大的意义和价值,大数据产业能带动GDP增长2-4%,然而现阶段,大数据持续升温,已经出现过热现象。
大数据引发建设热潮
马云的一句“无法计算的价值”,再次将大数据推上“云端”,受众人敬仰。
有人说,给一张照片,就可以通过大数据分析还原当时拍摄的时间、空间、纬度等要素,大数据的神奇,在诸多成功案列之后,正在被捧上神坛的途中。
当然,大数据确实有它独到之处,如无人驾驶就是大数据应用的一个好例子。无人驾驶,需要对各种数据进行综合分析,若在行驶中要穿越某个路口时看到小球通过,可能就要启动预测,小球后边会不会有一个小孩跟着,他正在追着球跑,这时车子就要作出相应的判断,启动大数据分析,它除了对环境感应的数据,地图的数据还有其他的领域。
对此,梅宏院士表示,这样的大数据应用,现在还不是那么普遍,但相信未来应该会越来越有用,从大数据发展到现在,很多数据应用的成功案例都曾证明过,“但是,在这热潮中,需冷静,需反思,一是大数据的概念持续升温,毫无疑问已经处于过热的状态,二是大数据不可能是解决一切问题的灵丹妙药,有时候也不需要全用(大数据)。”
梅宏院士通过一组数据来反映大数据过热现象:2011年至2013年上半年,全国共规划建设数据中心255个,已投入使用173个,总用地约713万平方米,总机房面积约400万平方米。其中,超大型数据中心(规模在1万个标准机架以上,功率2.5千瓦为1个标准机架)有23个,中小型数据中心(规模在3千到1万个标准机架之间)有42个,中小型数据中心(规模在3千个标准机架以下)有190个。
而255个数据中心的总设计服务器规模约728万台,实际投产服务器数约57万台,占设计规模的7.8%,超大型、大型、中小型数据中心的投产率分别为1.8%、21.5%和40%。
这255个数据中心分布在26个省、自治区、直辖市,从中可以看到数据中心的建设热潮正在全国涌动。
大数据在中国正引发新一轮的信息化建设,在这过程中更需要顶层规划和示范引导,积极谋划,审慎推进,避免一哄而上造成超前投资和重复投资。
信息步入3.0智慧化
信息化在技术平台、管理资源和应用模式方面逐渐演化,呈现出明显的阶段性特征,梅宏院士将此划为三个阶段,在互联网应用开始的前一天(中国接入为1995年),归之为1.0阶段,此时很重要的特征是以单机应用为特征的数字化阶段。
从90年代中期开始(1995年)至2015年美国提出“信息高速公路”建设计划,互联网得到广泛的应用,这时所有的信息化应用进入了以互联网应用为特征的网络化阶段,打破部门或组织固有的边界,强调信息共享与系统协同的网络化应用,这是2.0阶段。跟以往不同,现在海量的数据信息,已经从主动化为被动产生,数据的采集源自系统的自然产生。
经过20年的发展,信息化在社会各方面所形成的深入影响,正开启一个新的阶段,这就是3.0阶段,该阶段呈现出以数据的深度挖掘与融合应用为特征的智慧化,它是信息技术的不断廉价化,以及互联网及其延伸应用所带来的无处不在的信息技术运用,形成了规模巨大的数据资源,且仍将加速增长。
在摩尔定理(只是捆绑)、技术驱动的万物数字化、宽带移动互联驱动人机物的广泛连接和云计算模式等四大驱动力驱动下,数据表现出大规模汇集和集中。
此外,大数据应用的成功案例,如智能交通、Google的自动驾驶的交通导向,还有中外语言处理,Google百度完整的翻译系统、自动问答系统等,其中IBM中Watson系统有名的沃森医生,就是通过自动识别并对比成千上万张非结构数据图片,进而诊断疾病,由这些案例可看到数据驱动的智能时代正在来临,激发了基于数据的巨大需求。
根据IDC(全球数据总量统计)显示,2003年全球产生数据仅500万TB,到2012年全产生球数约27亿TB(1TB=1024GB ,1PB=1024TB),“在人类所获得数据中,90%的数据为过去两年内所产生的,数据形式开始呈多样性,从文本数据到视频、图片等非结构化数据,”梅宏院士由此预测,按统计大概在2020年前,全球数据量大约2年翻1倍,他举例解释说,“如果用当前世界上最快的商用计算机,要把1PB数据读入内存就要约6天时间,如果用4000台计算机对1PB的数据做简单的排序需要约6个小时。”
在信息爆炸时代,充斥着大量伪数据、无效数据、过时数据等,大数据价值密度低。对此,梅宏院士认为,真正的大数据应用应该取决于数据挖掘的深度和多元跨界数据融合的广度,而不仅仅是数据的含量;现在很多的应用,只不过是过去的数据量的增加而已。
大数据产业带动GDP增长2-4%
大数据对当今时代拥有重大的意义和价值,一方面它提供了人类认识复杂系统的一种新思维和新手段。理论上,人类能够把大千世界全部数字化,构建一个虚拟的世界。
梅宏院士认为,“大数据也成为促进经济转型增长的新引擎,大数据产业的形成对整个GDP的带动,大约是在2-4%。”这也因此受到政府部门重视,认识到它在促进产业转型升级,激发商业模式的创新,改善民生方面具有很重要的作用。
梅院士还认为,大数据正在成为国家综合能力和保障国家安全的一种新的利器。美国棱镜计划就是通过截获电邮、即时消息、视频、照片、语音、文件传输、视频会议、社交网络等数据的收集与综合分析。如何从繁杂的数据里面得到国家所需要的治理能力,这已成为各国重点关注。
目前,大数据产业生态链已现雏形,从基础设施到分析方法,到应用领域,产业生态框架基本形成,大数据生产流程也有了既定的模式:从获取存储、清晰标记、到集成聚合、分析建模,最后推荐展现。
大数据应用呈发展初级阶段特征,无论从深度和广度看,均难有真正意义的“全体数据”,就显示世界的复杂性而言,均是“抽样数据”。
大数据的巨大潜力已被广泛认知,随着大数据的普遍应用,将可能带来数据所有权、隐私保护、信息安全等一系列新的问题,而当前,相应的道德、法律建设,以及技术手段仍处于滞后状态。