大数据是从哪里来的呢?“大数据”不是一个新词,40年前有个叫阿尔文·托夫勒的美国华盛顿大学教授,写了一本书叫《第三次浪潮》,把人类发展历史分为三个阶段。第一阶段的浪潮是农业阶段,大概从一万年前开始;第二阶段是工业阶段,从14世纪末开始;现在正处于第三阶段,就是信息发展阶段。40年前,阿尔文·托夫勒就预见到,互联网是一个舞台,唱戏的主角是大数据,大数据奏响第三次浪潮的华彩乐章。
从1980年提出大数据概念之后,2006年,提出了人脑模仿机制的深度学习的概念。人工智能其实在60年前就诞生了,但是在相当长时期人工智能发展缓慢。2008年,维克托·迈尔·舍恩伯格等最早洞见大数据时代的发展趋势,出版了《大数据时代》。2008年,Nature出版了大数据专刊,分析了大数据对科学的影响和意义,探讨了大数据研究与应用的方向;2011年,Science推出《数据处理》专刊,从互联网技术、超级计算、环境科学、生物医药等方面介绍了海量数据所带来的技术挑战;2013年,Deep Mind将深度学习和强化学习两者精髓合二为一,提出了深度增强学习;2016年,人工智能与大数据结合,有了阿尔法狗(谷歌人机大战机器人)深度学习的概念。
大数据思维与变革
大数据给社会各行各业带来了深远的影响,推动了社会的巨大进步。首先大数据推动了科学技术的创新,包括分布式存储与计算、数据挖掘与分析、商业智能等。其次,大数据推动研究方法的改变,包括科学研究第四范式(数据密集型科学)、大数据协同创新、抽样调研变为网络海量行为分析。大数据提供了第四种范式,就是用数据来寻找科学路径,通过数据挖掘、数据优化、数据应用来找到科学的路径。这次新冠病毒防疫过程中,大数据起了很大的作用,比如健康码的推廣应用。而大数据最重要的革命性的变革,是推动了思维方式的变革,由过去的业务驱动转向现在的数据驱动。
从经济方面看,数据就是最宝贵的资源,也有人说数据资源的价值超过实用的价值,所以数据驱动的决策使得大家思维方式起了深刻的变化。一般来看从三个方面可以体现出来。第一,大数据资源是重要的战略资源。大数据能够提供丰富的战略资源,数据就代表了资源,大数据代表了资源的丰富,大数据思维表明我们哪些是优势、哪些不足,能够找出自己的短板,能够找到前进的动力。
第二,大数据是各类客观规律反映。我们现在要用市场进行资源配置,市场如何反映出来,就要通过数据。市场的变化、工程技术的发展、人民生活的改善都要通过数据来反映。我们现在的目标是要实现全面小康社会,不断满足人民日益增长的美好生活需要,并通过大数据反映人民美好生活。现在各地对GDP增长、税收增长、财政收入增长非常关注,但是我们更加关注人民美好生活的增长,因为所有的努力、所有的GDP、所有的财政收入、所有的税收,最后集中反映在人民生活的改善、人民对美好生活的追求方面。
第三,大数据是创新转型主要依据。现在实体经济需要转型升级,需要提供更多的创新产品、创新技术、创新实体。很多企业也很困惑,改革开放以来,我们国家也得到了长足发展,为人民生活提供了大量产品。但是最近几年,由于国内外环境的变化,我们相当一部分制造企业、实体企业处于比较困难的阶段,很多企业渴望转型升级,但转向哪里、升向何方?就从大数据里找方向,用大数据来寻找市场机遇、寻找创新依据。
有人问,数据前面为什么要加“大”字?主要是在数据里面,尤其在统计学里面有个“大数据”。随着统计样本趋向于无穷大,样本的均值就等于平均数,所以大数据强调的是关联关系。前面提到人工智能自1956年提出以后相当长时间内发展缓慢,为什么这几年发展很快呢?可以说是大数据挽救了人工智能。
三十年以前,学习人工智能用的语言,需要用几千、几万句才能编好一个程序,而现在的大数据在新的关联中找出必然的关系,从整体的观念、大局的观念来看问题,来把握问题的症结,这是大局观。大数据强调了数据协同、数据匹配,要求协同观。数据挖掘、数据聚合,最后要聚焦到某几个结论上,这就是聚集观。大局观、协同观、聚集观的三个思维方式,成了大数据思维的主要特点。
大数据与“新基建”
现在发展“新基建”是非常必要也非常重要的。“新基建”的主要内容包括5G基站建设、特高压、城际高速铁路和城市轨道交通、新能源汽车充电桩、大数据中心、人工智能、工业互联网七大领域,这几个领域以技术创新为驱动,以信息网络为基础,达到融合创新。
在“新基建”的七大领域中,最基础的是5G新一代通讯技术,能万物互联、赋能未来。5G将成为2020年和今后一段时间我们推广的重点。通讯技术的发展与科学技术的整个发展是同步的,在八十年代主要是语音通话,2010年乔布斯发明了智能手机,当时支持的网络是4G。
到了2020年,我们要构建智慧城市、智慧工厂,要建立以大数据为支撑的智能社会,这就需要5G的支持。5G最受益的技术就是大数据,5G将对大数据产生颠覆性的变化,5G推动数据量急剧上升,产生质的飞跃。5G增强移动宽带、大规模物联网、超高可靠低时延通信,这三方面都会使数据量急遽增加,这将为大数据提供更加广阔的资源,也对大数据提出了更高的要求。
大数据中心的建设将是“新基建”的一个重要内容,数据中心通过全球网络基础设施传递、加速、展示、计算、储存。大数据中心不仅仅是传统的数据中心,它还具备承载分布式海量数据储存和处理的能力,更重要的是它运用大数据的思维和技术。我们每天产生的数据估计会以10倍数增长,估计会从10GB/天到4TB/天,这就需要挖掘、分类大数据。产业链很杂,包括服务器、路由器、交换机、光模块、电源、网络等。
我的团队结合工业互联、智能制造技术,把大数据技术用到产品实际设计中,做了很多工作,包括高档数控机床数字化设计的关键技术、电梯产品大批量定制与数字化智能化设计技术等,为推动企业转型升级提供了科学的基础。不仅如此,大数据还可以助力工业互联网发展。
(本文根据谭建荣院士的最新公开演讲整理而成,未经本人确认。)
相关链接
自互联网经济、数字经济快速发展以来,我国开始大力建设数据中心,推动各个产业的数字化进程,大数据产业也由此诞生,并迅速落地。目前,大数据产业已经成为我国数字经济发展的重要引擎,大数据技术也为人工智能、 云计算等其他前沿产业的发展提供重要支撑。
不管是产业还是科技的发展,最终都将逐步走向融合,对于人工智能、5G、大数据等信息技术领域而言更是如此。随着国家加大支持“新基建”发展力度,人工智能、5G、物联网、数据中心等产业有望驶上“高速路”,对于国内大数据产业来说也是一大关键利好。