近两三年来中国的大数据产业快速增长,大体上年增长率在30%左右。从数量上来看,确实到了爆发式增长的量的标准上。但是,大数据产业或者数据产业,从它所承担的在国家经济、社会发展转型升级,在我们国家治理能力的提升和百姓生活水平提升这样的历史使命来看,大数据产业发展质的增长爆发点还没有到。那么,如何使大数据的产业发展在数量上的增长和质的增长能够走到平衡点,或者说走到相互匹配的地位呢?我想从三个角度谈下。
第一个角度是数据的价值特征。我们做任何事情,无论是企业还是产业目的都是实现价值,并把价值变成现金回流,来支撑企业的生存和发展。数据的价值特征有四点:第一,数据的价值特征是具体的,不是抽象的。所谓的具体就是数据价值的实现是和一个个能够发挥作用的工具系统连接在一起的。福州这几天一直下大雨,分布在福州全市的降雨水观察点,都可以收集到降水量的数值,因此,我们的气象局一定有一张数据图,这对气象局来说它的价值就已经出现了,主要是用于天气预报和气象的分析。但是对于整个福州市来说,与水相关的其他部门对于这个数据的价值是不是实现了呢?这个是需要条件的。例如,是否达到水库的水坝的开闸线要体现出来,这就需要有这样的数据和这样的系统联系起来的系统功能,还需要根据原来的数据做出来的模型和计算结果,才能释放数据的价值。所以,数据的价值是具体的,不是抽象的,不是有了数以千计的观测点记录了降雨的记录就有了价值。第二,数据的价值是多维的,不是单一的。刚才我们说的降水的数据是多维的,而多维的价值能不能实现是要看具体的条件。第三,数据的价值是有条件的,必须和我们能够发挥作用的东西有一致的匹配度。就像我刚才说的降水量有了,在这个水库相关范围的降水量有了,降水的预报有了,我什么时候开闸,要不要开闸,是需要有模型来支撑的。而且这个模型是要和实时的系统连接在一起的,如果没有这个东西,你无法判断该不该开闸。最后一点,刚才说数据的价值是可有可无的,你具体用起来了,价值就是有的,没有用起來价值就没有。
第二个角度是数据的技术特征。数据技术是一个门类特别多的技术体系,是一个技术体系的泛称,不是专指一个特定的技术。因为数据技术是从数据的采集、收集到对数据的组织管理、分析应用,到与我们具体的该用数据的地方结合起来,在这样的过程中所有的技术都是数据技术,缺一不可。我们千万不要一想到数据技术就是模型算法,就是数据的收集和管理,就是我们说的非结构化数据该怎么来把它管理起来,用什么样的方式进行分析,这些是重要的。但光有这个是不够的,所以数据技术是一个门类众多的综合技术,而且背后需要有不同的学科作支持。当然,我们的科研方法和产业化的方法路径也各不相同。尤其是对收集技术来说,有的具有一定的通用性,有的需要专门的,有的甚至是唯一的。其实越是通用的部分,我们越是有着悠久的历史,比如我们的关系数据库系统。我们千万不要以为今天非结构化数据占了数据总量的多少。数字型管理系统在数据管理中依然具有极其重要的作用和意义。我们一定要看到数据技术是一个广泛的门类,它的通用性和专用性是在不同的门类之上,我们投身到这个技术的时候必须分析清楚。
此外数据技术要重视是一个链环的或者是系统的技术。它的价值实现通常是一个链环,绝不是一个端点,端点只是在这个应用过程中还有一点没有通过的时候,这个端点是重要的,但是整体来说永远是一个链环,是一个系统,这样我们才能真正把数据变成价值,价值变成我们企业的收入和利润的来源,这个企业的发展才有了真正的根基。
第三个角度是数据产业的特征,数据产业的特征是经济行业分类的指标,所有的门类都有数据产业的声音,没有一个是没有的,你翻开我们现在的行业分类标准,没有一个没有的。它跨越了我们几乎所有的经济门类,这是它的一个特征。第二个特征是企业的规模有大有小。技术有通用到专用不同层次的划分,技术越通用这个企业越大越垄断。反之随着规模降低,它的垄断性也会降低。所以数据产业规模的大小,既有巨型的垄断企业,也有在一定领域起垄断地位的巨型企业,也有亿级、千万、百万的中小规模企业,都有生存和发展空间。
数据产业的另外一个特征是它有各种各样的属性,所有能够列出的企业属性和非企业的属性,我们数据产业里面的具体的企业或者机构都有。也就是说既有独立出来的民营企业,也有独立出来的国有企业,也有合资的企业,也有外资的企业,各种门类都有。除了这些之外我们还有相当多从事数据产业工作的作为企业成本核算中心在管理的事业部,不是独立的法人。所以数据产业正因为它跨越了所有的经济门类,技术范畴,又与所有的经济社会、宏观管理、人民生活质量提升密切相关。
回归到主题,希望大家从数据的价值,用恰当的技术和恰当的产业范围把价值实现,来承担我们数据产业应该承担的历史使命。