杨学山
大数据在中国经历了五年的发展。这五年来,我一直在关注着大数据、观测着大数据、研究着大数据,我认为有三个问题值得我们研究、思考和解决。
这三个问题总结为六个字—“价值”、“工具”、“理论”。
先讲价值。针对这一点,我们大体上可以从三方面分析:
第一方面,我们拥有一些称之为“大数据”的数据,那么,如何将其中的价值充分地挖掘出来?
第二方面,我们要解决一个与数据相关或信息相关的问题,需要将能够解决这一问题所需要的数据或信息的价值挖掘出来;
第三方面,我们需要有一些工具和服务,利用工具和服务挖掘实现数据的价值。
关于数据的两个价值观:现在很多大数据企业以及学会和科研单位,都把眼光放在实现数据间的结合,最充分地挖掘数据结合中的价值。这也是我们研究的主要方向。我们回过头来想一想,当我们对数据进行价值挖掘时,这个价值都是针对特定的经济、社会、生活或是相关领域问题的解决。
之所以要挖掘、分析出有价值的数据,是因为这些数据对于问题的解决有价值。所以说数据的价值就是问题本身。
大家都知道手机上的地图,我们通过使用地图相关的各种应用和数据来解决出行问题。但出行问题是不是有一个地图就够了,是不是有一个相关的数据结合就够了?要围绕出行问题,围绕结合去发挥作用,这是一个问题的两面。
如今,无论是经济新常态的“三个转变”,还是社会服务、公共服务的社会管理,以及老百姓生活要解决的问题,都需要足够的数据作支撑。从这个角度看,我们今天为解决这个问题是不是有了足够的数据或信息,是不是能够和解决问题的相应系统,很好地、及时地对接。
大数据的第一个价值链,应该是围绕着“解决问题”—交通问题的解决、信用问题的解决、宏观问题态势分析的解决,即数据围绕问题形成数据价值链。
过去,在第一个价值链,我们在很多关注点上取得了大量的成绩,但我们对第二个价值链的关注、分析还不够。
未来,大数据在经济社会发展中的作用将愈加明显。但两个价值链采取的分析文件和方法不一样,所以我希望我们能把握住大数据三个方向的价值。
在已经取得进展的基础之上,我们还要考虑另外一个问题,这个问题对于利用大数据促进经济社会发展,对于我们利用大数据来解决今天社会面临的问题更加重要。
这个问题就是工具,工具十分重要,可以说,大数据产品的价值是工具。
现在成千上万的工具被使用,大数据发展究竟需要哪些工具,这些工具是不是把问题解决了?
我的答案很清楚:我们的大数据需要工具,但现有的成千上万的工具,离真正能解决大数据问题的工具还有非常大的差距。为什么这样说?
30年以前,数字型数据库正值发展期。今天,数字型数据库管理系统工具已十分完善,基于该系统的应用也已十分完美。那么,我们今天的工具,是不是能达到数字型数据库管理系统工具的水平?
大家的回答是“相差甚远”。差在什么地方?在数字型数据库中,每一个数据单元,每一个值都是在控制体系之下,在这个之上可以形成不同算法和函数,可以在此基础之上构建应用系统。
要达到这样的程度,核心的问题是非结构数据的结构化的颗粒度和它融解的完美性和应用。即使在数字型数据库中,我们也要对数据进行质量管理,按照我们确定的数据质量,让数据到该到的地方。今天,这样的工具不能说没有,但是还没有形成体系,所以第一类工具就是解决我们对大数据的组织和管理。
第二类工具,要真正充分利用大数据,核心的问题是结构数据的结构化。关于结构化,我们通常有两条路径:一条路径是根据数据本身内涵的结合意义来做,第二条路径是根据应用来做。不管是按照语意来做,还是意义来做,我们都要确定单元和标识,让数据按照定义的单元和标识进行结构化。对此,我们需要一系列模型、算法和函数,以构造一个好的工具序列。
第三类工具,我们要与解决问题的系统连接起来。而我们和解决问题的系统之间,有一座很好的桥,这个桥就是工具。
第四类工具,从理论角度看,到今天为止,我们做的最好的、用的最好的还是数字型的数据库。
当我们需要数字型数据库或其他数据库支持时,当我们将数字型的系统和其他数据库连接起来,为同一个问题的决策或服务时,这个工具适不适用。
从产业生态链的角度看,要为使用者提供工具,要为解决问题的客户系统提供服务,我们需要更加商业化的管理。在工具这个问题上,需要回到问题的本源,也需要系统地思考:我们到底需要什么样的工具?这些工具如何形成?这些工具如何改造和使用?而不是把目光盯在已经有的工具上。
这就隐含着另一个问题:已有的工具所形成的思维方法、演进路径,与解决大数据问题需要的工具的路径不对时,怎么办?所以我们需要又回归到本源—我们如何来利用和创新工具?
第三个问题是理论,也就是说大数据在整个信息技术、信息经济、信息社会中的位置和属性究竟是什么?
我们对大数据有很多定义,也有很多关于特征的讨论,但有一个结论是清晰的,没有一个大数据不是信息,当然,信息不一定都是大数据。
所以当我们从IT时代到新的IT时代,从IT时代到DT时代,从工业社会到信息社会、从工业经济到信息经济的发展和整个形态中,不变的东西是信息。
所以说,大数据是对“信息”这个词的一个代表性的称谓,因为在这个阶段,信息有它的特殊性。
所以,我们在研究大数据的整个技术系列,和社会演进过程中的定位和属性时,应该把它看作是信息在当前阶段的一种称呼和标签,不能将它和信息相关的研究区分开来。
在理论上,大数据具有两个属性—经济属性和社会属性。
首先,大数据具有经济属性。今天经济社会发展面临着一个重要的变革—信息成为整个生产过程中的要素,信息提供了产品。这样的要素和产品,和它原来的材料、能源在整个经济运行过程中的性质不同:它不遵循材料能源的基本规律,这才有了我们今天的零边际经济、共享经济等一系列的经济模式。所以,在理论上,大数据拥有一种经济属性。
我们还要研究信息的社会属性。信息的获取、处理和利用模式的改变,也改变着社会发展中的每个成员和每个功能系统的发展轨迹。在这一点上,我们虽然已有很多的研究,但仍需要认真研究。
我刚才讲了价值、工具和理论,与其说提出了一些看法,不如说是想引起大家对这三个方面的重视。其实我们讲价值时,是在讲商业模式的价值。商业模式是什么东西?你发现价值,并让这个价值实现,让获取价值的人和你本人在其中获利。而商业模式创新不一定建立在价值链方向。
我讲工具其实是在讲技术创新。中国人多、经济发展规模大。因此,当万物互联或互联网与人互联时,我们天然拥有数据的优势,而这种优势为什么不能转变为我们科技创新的优势,成为工具创新的优势呢?
我们再回顾过去的历史:我们一直强调高端市场、先进市场,要培育高端和先进的技术。在这一轮变革中,中国有什么理由不产生新一代大数据的供应体系呢。
我们一直在讲理论创新。当中国从跟随者走向并肩者、领先者时,当中国真正进入发达国家的第一阵营时,如果没有理论创新那是说不过去的。
所以我们需要加强理论创新。当我们的理论创新真正取得成果时,我相信中国民族的伟大创新就为之不远了!(根据演讲内容整理,未经本人审核)