国家发布了《促进大数据发展行动纲要》,纲要的核心是数据开放、共享、安全。今天的演讲围绕数据资源的开发展开。
我们认为,国民经济与社会的信息化从技术层面来讲,实际上是一个生产数据的过程,这个过程使得我们各行各业、各领域现在都积累了非常多的数据。数据多了以后,实际上提升了整个人类的能力。例如,今天我们可以做全球气候的变化研究,根据研究做出决策要进行全球性的节能减排,来促进人类的可持续发展。我们也可以看到,今天我们在很多领域有了进展,比如精准医疗、疾病早期的诊断和预防,以及公共医疗政策的发布等。当前很多人都在讨论智慧城市,实际上有后台和智慧的引擎在支撑着每一个智慧的应用,智慧引擎实际上就是一个大数据的平台。
数据被大量的积累以后才形成了数据资源,今天我们可以看到,数据资源正在作为一种战略资源,影响着从国家到企业到个人。
信息化战略始于1995年十四届五中全会,大数据战略是2015年十八届五中全会提出的。信息化是生产数据的,大数据是开发数据的,这两个在方向上是不一样的。关于这两个概念,我的观点是“不混淆、不冲突”。
所谓不混淆就是不要把两件事混在一起,一个是生产数据,数据生产出来以后大量积累形成资源,资源的开发利用是另外一件事情;所谓不冲突是不要把两个对立起来,不是我们今天讲大数据就不讲信息化,信息化还会快速持续地发展,但是大数据已经从信息化范畴发展出一个新领域、新行业、新产业、新学科,正蓬勃兴起。
大数据有很多的定义,我给过一个详细的定义并系统地介绍了大数据,有兴趣的可以看我的文章《大数据是数据、技术,还是应用》。这里介绍有一个系统地关于大数据的定义,它涉及了数据、技术和应用,三样缺一不可。但是我们更希望讲一个简单的大数据概念,所谓简单的大数据其实就是两件事:第一件事你用数据解决问题,第二件是你解决数据的问题。解决数据的问题就是传统的做IT的人,用各种方法、算法解决数据的问题。用数据解决问题就是用数据来解决各行各业各领域的问题。有三点建议:1)现在起学习用数据解决问题;2)现在起用别人的数据来一起解决问题;3)现在起用数据做更多的事情,这就属于真正创新的领域。
我一直不喜欢用“大数据的产业”,而用“数据产业”,因为数据产业和数据的大小没有关系。数据产业有数据的技术和数据的应用,数据的资源是可以交换的。数据技术有一系列的技术。数据的应用渗透到了各行各业、各个领域和各个阶段,包括个人、企业、政府。
虽然数据开放谈了很多年,但数据开放共享是一件非常困难的事。因为数据的资源性更加加大了开放、共享的难度,这是一个普遍的现象。开放、共享需要有一些政策和法律的支持,同时也要对应着技术的支持。
我们看看数据的分类。第一是国家机密数据,有一些数据涉及国家安全的,要保护起来,否则就泄露了国家的机密;第二政府开放给公众的数据;第三是纯市场的数据,可以自由交易流通;第四是企业机密数据,企业做的一些保障自己权利的数据和内容。这样,数据交易应该是交易市场化的数据,数据的开放和共享是针对政府公共资源数据。所谓数据开放是要政府的数据逐步变到数据开放这个象限这边。所谓数据交易完全是市场化的数据在市场上交易,國家要保护国家安全和个人机密。共享是在这之间,这个共享是从政府逐渐移到象限,包括政府内部的一些共享,并不一定是全民的共享,后面是一些限制交易的东西。
数据开放有一些挑战,对政府来讲,对数据的用途、特性,特别是可用的数据,这个认知是非常不足的。
我们讲各个行业、各个领域有很多数据,但是哪些数据是可用的,没有人知道。有些数据是在信息系统里面也无法转化出可用的数据。即使你觉得这个数据有用,如何让外界看到你这个数据,这个事情也非常难做到。这些需要一整套完整的体系去规范。
不过从目前的情况来看,数据的黑色产业发展的非常发达,这个是令人担心的事情。我也非常担心,今天参加展览的一些企业的数据来源是否合规、合法、合理。这是我们面临的一个巨大的挑战。
我们今天新的文明的建设,可能来自于对网络的依存,有这样一些关于网络的区域、部落正在建成。
今天我们讲网络已经变成我们进步和发展的必需条件,我们到哪里开会办公都需要网络,如果提到哪里没有网络,我们的第一反应是非常落后,包括网络数据的流向、流量等,这是我们讲的绿色的文明。
在这样的文明下,将来有数据国家形态的出现,国家的边界将发生变化,以及刚才讲的国家数据的主权。当然,大数据只是当前的一种表现形式,而且是刚刚开始,刚刚处于起步的阶段。